Linus Torvalds是Linux內核的發明人及該計劃的合作者。
編者按:1994年,《Linux Journal》創刊。當時雜志的特寫文章是雜志的第一位發行人Robert Young(后來與人聯合創辦了Red Hat)對Linus Torvalds(Linux內核的作者)的采訪。25年之后,兩人再度坐到了一起,就Linus本人的近況,Linux的成功之道以及未來之路,自己的工作哲學,對社交媒體的看法,對網絡噴子和匿名性的態度,對年輕開發者的建議等進行了推心置腹的交流。本文作者是Robert Young,原文標題為:25 Years Later: Interview with Linus Torvalds
Robert Young 與Linus Torvalds的訪談錄
Robert Young:很高興能有個借口跟你取得聯系。你跟家人都挺好的吧?你的孩子現在應該都上大學了。我和Nancy還有我們的3個女兒都挺好。我和Marc創辦Red Hat的時候老大Zoe 11歲,現在她準備有第二個孩子了——也就是說,我現在都當爺爺了。
Linus Torvalds:其實我的孩子都還沒大學畢業,不過Patricia(老大)今年5月會畢業。Celeste(最小的)在讀高三,所以再過半年我們就成空巢老人了。
3個孩子都還不錯,當外公我想/希望是幾年后的事情了。
Bob:1994年我第一次采訪你時,你會不會認為到 2019 年自己還會維護這個東西?
Linus:我想1994年的時候自己就已經感到驚訝了,想不到我的最新項目不僅僅又是一個“做點有趣的直到它做了我需要的一切然后再找點別的去做”這樣的項目。當然,那時候還處在開發相當早期的階段,但那已經是我做了幾年的項目了,并且已經有了自己的生命。
所以我想我試圖要表達的是,我未必會預料到會再做它幾十年,但它已經邁過了一道坎,成為我生命當中一個相當重要的東西。其實我從來都沒有給Linux制訂過長期計劃,我做事都是一天天來的,而不是考慮5年或者10年后的事情。
Bob:關于實現你的夢想的危險性,你過去有一句名言——在被問到對Linux的未來目標是什么時,你經常開玩笑說是“統治世界”。現在你還有更廣大的開源/免費軟件圈已經實現了這個目標,接下來呢?
Linus:呃,我很久以前就不開“統治世界”的玩笑了,因為隨著時間推移這個看起來不怎么像是玩笑了。但它一直都是個玩笑,這也不是我(或者任何其他開發者)做所做的事情的原因。那個原因永遠都只是為了做出更好的技術,去發掘有趣的挑戰。
其實在核心層面沒有一樣東西改變。所有的細節都變了——硬件已經很不一樣,我們的問題已經很不一樣,我的角色已經很不一樣。但“做得更好,發現有趣的挑戰”依舊不變。
比如說,1994年那時,我基本上是個開發者。當然,我也是首席維護者,但雖說我花了很多時間在合并補丁上,但我基本上都是寫自己的代碼。現在我很少寫很多代碼了,而且我寫的往往是偽代碼或者樣例補丁,然后發郵件給真正的開發者。我曾經對把自己叫做“經理”猶豫過,因為其實我并沒有做過年度考評或者預算之類的事(感謝上帝!),但我絕對更像是技術領導而不是實際的程序員,過去許多年里一直都是這樣。
所以真正重要的東西沒有變過,但跟1994年相比,我的角色以及所有那些細節,顯然已經非常非常不一樣了。
Bob:再過25年,你以及這個代碼庫會去到哪里?
Linus:呃,那時候我都75歲了,我懷疑到時候還能不能每天都這么投入。但考慮到我一直做這個都快30年了,也許我屆時還會跟進下去。
好消息是我們的確有一個非常堅實的開發者群體,我不擔心“Linus會走向何方”之類的問題。當然,很長一段時間以來,大家一直都在討論核心開發者怎么變得越來越老的問題,但這其實不是因為我們找不到任何新人,而完全是因為我們依然有很多做了很久的人還在做,并且仍然享受其中。
我曾以為有朝一日會有個令人興奮的全新OS出現,取代Linux(嘿,1994年那時候我大概仍然認為也許Hurd會做到這一點!),但我們不僅做這個做了很長一段時間,而且仍然做得非常好,我也意識到開發新的操作系統要比我想象的難多了。這的確需要很多人付出很多努力,而Linux——或者更廣大的開源——的優勢,正在于你可以站在別人的肩膀上做開發。
所以,除非技術版圖出現了翻天覆地的變化,否則的話我認為Linux再過25年依然會做得相當好。這不是因為代碼本身的任何細節怎樣,而完全是因為其開發模式和問題空間使然。
到那時候我可能干不動了,而且很多代碼都會被升級替換,但我認為這個項目仍將保留下來。
Bob:這些年來為了讓你滿意,你和內核團隊是不是一直在更新內核代碼?已有25年歷史的不斷擴張的Linux代碼庫是否存在重寫的需要或者壓力?是不是可以用比C語言“現代”一點的語言來重寫?
Linus:這些年來我們已經對大多數子系統進行了很多的大規模重寫——當然不是一次性地——很多代碼塊最終都已經成為了沒人再想去修改的了(通常是因為那是過時硬件的驅動程序,已經很少人用,但我們還將支持)。不過,整個內核有一個大一統的代碼庫的好處之一,是當我們需要做出一些大的改變時,我們就能做到。可能有一些內核之外的驅動程序等(包括源碼和二進制文件),但我們一直以來的政策都是,如果是內核以外的話,就不關開發的事。所以,必要的時候我們可以做出徹底改變。
至于C,沒有比這更好的語言出現。我們已經針對新的改進過的功能更新了內核源碼(在這些年里C 語言本身也發生了變化),而且我們還為額外的類型檢查、運行時驗證以及強化等給C 語言上添加了各種擴展,但基本上除了一些小細節之外,這門語言基本上還是一樣的。
而且說實話,這看起來不大可能會變。大家看到處在活躍開發中的那種語言不是用來進行底層系統開發的,而是為了讓用好看的UI等開發用戶應用更容易而準備的。這類語言顯然不想干內核需要的事情,比如底層人工內存管理等。
可以想象,我們會有一些“框架”語言來生成驅動程序或類似東西,而且在我們內部實際上也有自己的簡化“語言”來進行配置,我們在建構過程中的確也使用了一些其他語言,所以C不是我們使用的唯一語言。但到目前為止,這是大部分都是用C寫的,“真核”都是用C來寫的。
Bob:你選什么樣的硬件?是不是那種Linux(或任意其他)筆記本牌子貨?還是平板或者手機?
Linus:我的主要開發設備是非常普通的PC工作站。那是這些年來組裝起來的。機器沒什么特別,自打我對它大改之后其實已經有2年了,所以甚至都算不上先進。在家里我的主要要求其實就是要徹底的安靜。除了幾個風扇以外,里面沒有任何的活動件(所以再也沒有機械硬盤了),而且風扇大部分時間內甚至都不用轉。
外出時(幸好不用經常),我的主要需求是屏幕要好、要夠輕。我的目標重量是1公斤(帶電源),說實話,我還沒有達到這個理想目標,但目前對我來說最好的折衷是 XPS13。
Bob:似乎Linux在桌面的成功不在于PC桌面而在于(通過Android實現的)設備桌面。你怎么看?
呃,傳統PC顯然不再像以往那樣占主導了。哪怕你一臺電腦(即便仍跑 Windows或OS X),很多人也主要是通過web瀏覽器和一些應用程序來使用。當然,還有那種“工作站”用戶,這是那種我個人一直設想中的桌面。雖說還很重要,但它似乎已經不能像當年的PC那樣去推動市場發展了。強大的臺式機似乎主要是用來開發、玩游戲、或做媒體編輯。那種“休閑”類桌面似乎更多是瀏覽器類的東西,而且往往只是一臺平板或者手機。
當然,Chrome在其中某些領域似乎做得不錯。不過就每天都跟Linux打交道的人數而言, Android顯然占了大塊頭。
[Bob注:就“統治”的嚴格意義來說,這可能是公平的。但盡管過去幾年PC總出貨量有所下降,但1994年到2014年PC市場的累積增長依然可觀,以致于即便在PC市場放緩的今天,每年PC的安裝量仍然是1994年的4、5倍]
Bob:如果你得解決網絡世界的其中一個問題,那會是什么?
Linux之父(Linus Torvalds)
Linus:都不是技術性的問題。但是,我對現代的“社交媒體”深惡痛絕——如Twitter、Facebook、Instagram 等。這是一種病,似乎鼓勵了壞行為。
我認為其實郵件也有部分同樣的問題,我之前曾經說過:“在互聯網上,沒人能聽得出你的微妙”。只要不是面對面的交流,你就會錯過所有正常的社會線索,很容易就會錯過幽默和挖苦,但也很容易就會錯過對方的反應,所以就會有吵得不可開交等面對面交流不易出現的情況。
但電子郵件仍然管用。你仍然必須花精力去寫,而且一般都會有一些實際內容(技術性或者其他)。那些“點贊”和“分享”之類根本就是垃圾。不用付出,也沒有質量控制。實際上,這些都跟質量控制都是背道而馳的,大家目標的共同點最少,都是些標題黨,是為了喚起情緒反應,往往是道德義憤之一。
再加上匿名,這完全是令人作嘔。當你甚至都不把真名寫在你的垃圾(或者你分享或點贊的垃圾)上時,的確是一點作用都沒有的。
其實我是認為匿名性被高估的人之一。一些人將隱私與匿名混為一談,認為這兩者是息息相關的,保護隱私意味著你需要保護匿名。我想這是錯誤的。如果你是告密者的話匿名是重要的,但如果你無法證明自己的身份,你在一些社交媒體平臺上的瘋狂謾罵就不應該可見,而且你也不應該能夠分享它或者點贊。
好吧,我這也是謾罵。我不上任何的社交媒體(我試過一段時間的G+,因為上面的人不是腦殘,但顯然它從來都沒火過),但這依然令我困擾。
Bob:本期的《Linux Journal 》關注的是孩子與Linux。對于年輕的程序員/計算機科學學生你有什么建議?
Linus:其實我是最不應該問的人。我知道自己很小的時候就對數學和計算機感興趣,直到大學之前我基本上都是自學的。我做的一切差不多都是自發的。所以當大家說“我應該做什么?”時,我不能理解大家面臨的問題。我根本就沒有這樣的問題。
Bob:你我的第一次見面是在DEC展上。在“瘋狗”Jon Hall和DEC的資助下,那是你第一次去美國。
我認為那其實是我第二次到美國。我想第一次是去猶他普洛佛,跟Novell 討論 Linux(為了Novell的一個內部項目,是Caldera的前身)。
不過DECUS展(是在新奧爾良嗎?也許我記錯了)的確是我最早到美國的目的地之一。
Bob:我曾經問過你回到赫爾辛基時是怎么處理掉積壓的電子郵件的。你的回答令我感到吃驚,后來我一直都引用你說的話。你只是說你會把積壓的郵件發往/dev/null。我表示震撼并且問你:“如果收件箱有重要郵件怎么辦?”你聳聳肩回答道:“如果是重要的話,寫信的人會再發一遍的。”這可能是任何人能給我的最釋懷的建議了。你現在還遵循這種郵件處理哲學嗎?
Linus:多少還是這樣的,但與此同時,我的工作流已經改變了很多,所以旅行不會像過去那樣對我的工作造成那么大的干擾了。所以一這段時間以來我往往會盡量不讓大家注意到我出去了。如果在1、2天內我的互聯網連接可能有問題的話(尤其是如果你是水肺潛水員的話)我會提前警告一下。但大多數時候,我在世界任何地方都可以干活。我試過把行程安排在合并窗口期以外(有時候會失敗),因為那這是我收到pull請求最多的時候。
所以這段時間我都是把郵件存在云端,這樣子機器間切換就容易多了,這也意味著當我旅行并且使用我的筆記本時,不再會像過去那樣下載郵件到本地機器那么痛苦了。
而且不僅我的郵件是這樣——實際上,幾乎所有的內核開發最終都是靠git來分發的,這也意味著我在哪臺機器上基本上已經不是問題,而且同步要比過去通過電子郵件一個個去處理補丁容易多了。
不過,我那個“如果郵件重要,對方會重新發送”的看法依然有效。大家都知道,我差不多是全年輪軸轉的,如果我幾天內都沒有對pull 請求做出響應的話,這仍然意味著它可能會被埋沒在我一堆郵件當中,大家就會再發一封郵件來提醒我一下。
但這種情況其實已經比過去少見多了。1994年的時候,我還沒那么工作過度,離開一周也沒什么大不了的,但是,在接下來的幾年里,情況慢慢變得越來越糟,以至于我們以前那種郵件發補丁的工作流意味著我有時被迫忽略補丁,因為我已經沒有時間去處理,且知道大家還會再次發郵件的。
很高興,那樣的時光早已一去不復返。BitKeeper對我產生了很大的的影響,盡管不是所有的維護者都喜歡它。現在git意味著我不再通過郵件收取成千上萬的補丁,我的收件箱看起來不再像過去那么糟糕了。所以跟它相處也容易些了。
順便說一句,有一條規則可能比“如果郵件重要,對方會再次發送”還要重要,我已經執行力很長一段時間:如果不必回復,那就不回復。如果我收到郵件后的反應是別人可以處理的話,我會干脆忽略這封郵件。一些日理萬機的郵件人會設置自動回復說“抱歉,我最終會處理的你郵件的”。但我會忽略任何自己覺得與我無關的事情。這么做純粹是因為我覺得我承受不起鼓勵大家給我發送梗更多郵件的后果。
所以我收到很多郵件,但其實大部分我都不回的。實際上,我的工作很多都是掌控全局,知道發生了什么事。所以我會看很多郵件,但一般不怎么寫郵件。
Bob:1995年5月,Don Becker在華盛頓組織的一場Linux用戶組會議中,你發表過一次演講,中途你曾停下來問聽眾誰知道男子冰球世錦賽芬蘭對瑞典的比分。作為與會的加拿大代表,我得以向你保證芬蘭贏得了比賽。說道這個,芬蘭最近贏得了世界青年錦標賽,你肯定感到很開心。還是你會為美國歡呼?
Linus:嗨!冰球也許是芬蘭的國球,但我不是狂熱的體育迷。搬到美國并不意味著我會選棒球或者橄欖球,只是意味著冰球也失去了那種“我周圍的人在乎”的感覺。
Bob:我們很多人都對你在Linux技術決策的公開辯論中直言不諱的態度感到欽佩。嗯,其他人就不喜歡你直率的說話風格。隨著時間的推移,你認為自己是不是多多少少有了一些外交辭令的味道了?
Linus:如果說有什么區別的話,窩鄉我已經變得更安靜了。我不會說這是“更加外交辭令”,但也許是更有自知之明了,而且我也在試著不那么咄咄逼人。
這部分是因為大家不再像過去那樣對我進行解讀。過去的環境更加隨心所欲一點,我們也是一群享受樂趣的極客。現在的環境跟過去不一樣了。再者也不像過去那樣個人化了,現在參與開發的人已經成千上萬,這還只是計算量發出補丁的人數,還不是做Linux的人的全部。
而“用不同的方式解讀我”的部分原因在于,大家用一種1994年時不曾有的嚴肅態度來對待我。這絕對不是抱怨說當時大家沒有認真對待我——其實恰恰相反。這更多是我的抱怨,抱怨大家現在太過認真地對待我了,所以我再也不能說一些愚蠢的廢話了。
所以我仍然會號召大家(尤其是公司)做些蠢事,但現在我這么做的時候必須知道這是新聞,如果我朝某些公司豎中指的話是會被記住幾十年的。不管是否活該,這種行為可能都不值得。
Bob:你還有什么要說的嗎,無論是公開或者私下?
Linus:我從來都沒有想要傳播的“訊息”,所以……
1976年,Young學習歷史后從多倫多大學畢業,然后找了一份買打字機的工作。1978年,他創辦了自己的第一家公司,然后再加拿大呆了15年,掌管著兩家計算機租賃公司。他把第二家賣給了一家更大的公司,1992年后者派他渠道美國的康涅狄格州來發展美國的子公司。很快,新的母公司遇到了財政困難,也就是所謂的破產,Young開始自主創業。
Robert Young,Linux J ournal的第一位發行人
盡管這一事件直接導致了1993年 Red Hat的誕生(跟北卡羅來納州的軟件工程師Marc Ewing一起創辦),但兩人均愛上了自由軟件——也就是現在所謂的開源——Ewing愛上開源的原因是他可以用帶源碼且授權允許他創新的軟件來創新,Young的原因則是他看到跟比專屬軟件相比,開源技術可以更好地服務技術客戶。自從創立到1999年上市一直擔任RedHat CEO的Young后來專任主席,出色的Matthew Szulik接任了CEO,將早期的Red Hat打理成一門出色的生意。Red Hat現在已經是代表美國最大上市公司的標普500指數的成員。
2000年,Young和Ewing聯合創立了Center for Public Domain,這是一個促進知識產權、專利及著作權法健康交流,以及對公共利益的公共領域進行管理的非營利組織。其捐贈受益人包括Electronic Frontier Foundation與Creative Commons等。
2003年,Young買下了加拿大橄欖球聯盟的漢密爾頓虎貓隊,目前擔任該聯盟的副主席。
2004年,他與Gart Davis領導的出色團隊一起推出了Lulu.com,這是第一個在線自出版服務,可利用按需打印技術幫助新一代的作者直接將作品推向市場,避免了通過傳統渠道出版拖延、浪費以及利潤有限的缺點。在Kathy Hensgen的領導下,Lulu繼續成為幫助作者將作品推向市場的領先創新者。
2012年,Young投資了由Ernie Earon和Christopher Dean領導的小型無人機PrecisionHawk。PrecisionHawk總部位于羅利,已成為美國領先的無人機技術公司之一。他繼續擔任董事長,擔任首席執行官Michael Chasen。
2012年,Young投資了美國領先的無人機初創企業PrecisionHawk并擔任公司的董事會主席。
自2016年以來,Young一直在跟Scott Mitchell與多倫多的一個團隊合作,幫助組織加拿大自己的職業足球聯賽——加拿大超級聯賽。他是漢密爾頓熔爐隊(Hamilton Forge)的老板。該聯賽將于本月(2019年4月)開始比賽。
目前他感興趣的項目是幫助妻子Nancy經營Elizabeth Bradley Design公司以及Needlepoint.com商店,這是一家領先的刺繡品供應商。其使命的的確確就是要通過發展壯大全球的針繡愛好者社區,讓讓世界變得更美好。
閑暇時光他最喜歡跟日益人丁興旺的家族共度時光。1年前,他和妻子Nancy迎來了他們的第一個外孫。Young還很享受追求各種愛好,盡管玩得總是很糟糕。其中就包括飛釣、風箏滑板、高爾夫等。最近他還開始收藏起古董打字機了——這可以說是對他從打字機推銷員開始職業生涯的一次致敬。
前后不到一個月,兩個開源生圖模型相繼上線。
首先是由稱得上 SD 原班人馬的黑森林實驗室推出的 FLUX.1。黑森林實驗室由 Stable Diffusion 的核心開發者 Robin Rombach 領銜創立,團隊成員基本上都是 Stable Diffusion 3 的作者,其中三名元老級成員還是 Stable Diffusion 論文的作者,FLUX.1 也是在 Stable Diffusion 3 架構上做的改進,不管從哪個角度,FLUX.1 都稱得上是 Stable Diffusion 3 的精神續作,FLUX.1,也包括 3 個變種模型,FLUX.1[pro]、FLUX.1[dev]、FLUX.1[schnell],并將 FLUX.1[schnell]完全開源,也是團隊開源理念的一種印證。
好巧不巧,上個月,一家美國創企 Fal.ai 也發布了自研的開源生圖模型 Auraflow,并在上線模型的同時,發布了一篇博客,闡述的觀點主要是,當前階段對開源模型的開發好像陷入了停滯,而 Auraflow 將繼續踐行開源社區的理念,這口氣儼然是將 Auraflow 當作了開源模型的希望之星,對標的也是老牌的開源模型明星 SD3。
SD3 氣還沒喘勻,一下又來了兩個對手。“除了 FLUX.1,包括國內字節、快手的生圖模型近期陸續上線,我們平臺用戶在一個月內上傳的微調模型數量超過了 1000 個,5 倍于 C 站(Civitai,全球最大的生圖模型社區)的速度。”從開發者的角度來看,SD 的挑戰,倒成了他們眼中的機會。
看到相關信息,結合我們之前對 SD 的觀察(參閱我們之前的選題《幾乎所有創企都在用的 Stable Diffusion,真的可能要甩賣了》),SD 作為幾乎所有 AI 生圖開發者所采用的基座模型,卻已經一度到達了要賣身的地步,這與其團隊管理、更重要的是不太合理的商業模式設計有關,Stable Diffusion 都差點賣身,挑戰者卻來勢洶洶。這不禁讓人想問,底氣何來?繼 SD 出現問題之后,商業化模式能跑通嗎?這一波模型“涌現”又會給開發者帶來哪些機會呢?
我們先從文生圖模型最根本的產品力上見見真章。
一、SD3面前,連Auraflow都“很能打”?
從市場的反饋來講,FLUX.1 這幾天的刷屏,貌似已經在向行業宣告,“我很可以”。而 Auraflow,雖然相對小眾,但在開發者社區里,也有一些人討論。在結合開發者反饋的同時,我們還是決定自己先測量一波各家模型能力。但這波測量我們準備以表格呈現結果,不再多著筆墨,也方便大家查閱。
測試方法:
在與一些生圖社區的創業者聊過之后,我們會發現,現在很多 AIGC 技術在用戶側那里,除了一些嘗鮮人群,有很大一部分屬于“專業人士”,而生圖模型能否對應這些行業有不錯表現,也是一些生圖社區在采用基座模型時所考慮的。因而這次,我們選擇了游戲、電商、藝術創意、攝影、廣告幾個行業對應的動漫風、奇幻風、印象派藝術風、寫實場景、人像攝影和家居廣告對新出的生圖模型進行測評。
參賽選手分別是 FLUX.1 的三個版本:FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]、號稱 SD3 系列最新最先進的 SD3 Medium 和 Fal.ai 自研的 Auraflow。(考慮到外國研發的模型對英文的響應度更高,而且筆者親測 FLUX.1 系列模型中文理解能力較差,測評使用英文 prompt,不過為了方便讀者閱讀,文中保留中文 prompt。)我們將測評的結果做成了表格,并將此次對比中優勝者標紅了,可圈可點的亞軍也以品紅色(ps:稍微淡點)標注,方便大家對比。
動漫風
Prompt: An intense anime-style battle scene at dusk between two characters in a forest clearing. The first character, a young warrior with spiky hair and glowing blue eyes, wields a katana, poised to strike with lightning speed. The second character, a mysterious figure in a dark cloak, counters with a swirling aura of shadowy energy. Sparks fly as their weapons clash, illuminating their determined expressions. The background shows trees bending from the force of their attacks, with leaves swirling in the air. The atmosphere is tense and dramatic, with vibrant colors and dynamic motion capturing the energy of the fight.
中文Prompt:以動漫風格呈現黃昏時分兩個角色在森林中戰斗的場景。一位是年輕的戰士,擁有刺猬般的頭發和藍色眼睛,手持武士刀,準備以閃電般的速度發動攻擊。第二個角色是一個身披黑色斗篷的神秘人物,他以陰暗能量的漩渦光暈進行反擊。當他們的武器碰撞時,火花四濺,照亮了他們堅定的表情。背景里樹木因他們的戰斗而彎曲,葉子在空中飛舞。氣氛緊張且戲劇化,要求畫面充滿動感。
測評結果:
奇幻風
Prompt: In a mystical, otherworldly landscape, a towering ancient tree with glowing runes carved into its bark stands at the center of an enchanted forest. The tree’s massive roots twist and coil like serpents, merging with the earth in intricate patterns. Surrounding the tree are ethereal, floating islands covered in vibrant, luminescent flora.
A majestic dragon with shimmering emerald scales winds gracefully around the tree, its wings extended as it prepares to take flight. Nearby, a powerful sorceress with flowing silver hair and a staff crackling with arcane energy is summoning a portal, its swirling vortex glowing with otherworldly light. The atmosphere is filled with magic and wonder, as beams of light pierce through the dense, mystical fog. The scene is richly detailed, capturing the grandeur and imagination of a fantasy world.
中文prompt:在一個神秘的異世界景觀中,一棵高聳的古樹矗立在一片被施了魔法的森林中央,樹皮上刻有發光的符文。這棵樹的巨大根系像蛇一樣扭曲纏繞,與大地交織成復雜的圖案。圍繞著古樹的是漂浮在空中的島嶼,上面覆蓋著充滿生機、發光的植物。一條威嚴的龍盤旋在古樹周圍,它那閃耀著翡翠光芒的鱗片在光線下熠熠生輝,翅膀展開,正準備騰空而起。在附近,一位擁有銀色長發的強大女巫正用一根閃爍著魔術能量的法杖召喚一個傳送門,漩渦狀的門洞發出異界的光芒。畫面中光束穿透濃密的霧氣,展現出一個富有想象力的奇幻世界。
測評結果:
藝術風格:印象派
Prompt:A serene riverside landscape painted in the Impressionist style, with dappled sunlight filtering through the trees and reflecting off the water. The scene features a small, vibrant boat gently gliding on the river, its colors blending into the surrounding water. The sky is a soft gradient of pastel hues, with light, wispy clouds floating above. On the riverbank, a group of people in period clothing are enjoying a leisurely afternoon, their forms slightly blurred to capture the moment's movement and atmosphere. The brushstrokes are loose and expressive, with a focus on capturing the light and color rather than precise details, creating a dreamy, almost ethereal quality to the scene.
中文prompt:以印象派風格繪制一個寧靜的河畔景色,斑駁的陽光透過樹木灑在水面上。場景中有一艘色彩鮮艷的小船輕輕滑過河面。天空呈現出柔和的漸變色調,淡淡的云朵飄浮在上方。在河岸邊,一群身穿復古服裝的人正享受著悠閑的下午,他們的身形稍微模糊,需要捕捉到當下的動感和氛圍。畫面的筆觸松散且富有表現力,側重于捕捉光線和色彩而非精確的細節,創造出夢幻、幾乎超現實的場景。
測評結果:
寫實風
生圖模型在圖片中的文字理解和生成能力一直是大家關注的重點,我們將這個維度放在電商場景下著重考察了一下,這也關乎生圖模型后續投入實際應用的能力。
Prompt:Generate a realistic image of a T-shirt designed for e-commerce product display. The T-shirt should feature the text logo ‘NOTREAL,’ with the logo naturally integrated into the fabric through embroidery or dyeing. The logo should be distributed across various parts of the T-shirt in a unique design. Additionally, the T-shirt should include a simple graphic design and showcase intricate embroidery details on the sleeves or other areas. The image should be highly detailed, capturing the texture of the fabric, the stitching of the embroidery, and the effect of the dyeing. The overall style should be realistic, suitable for an online store.
中文Prompt:生成一張用于電商產品展示的 T 恤圖像,要求寫實逼真,適合在線商店展示。T 恤應包含‘NOTREAL’文字標志,標志通過刺繡或染色的形式自然融入織物。此外,T 恤還應包含簡單的圖案設計,并在袖子或其他區域體現刺繡細節。圖像需要捕捉到織物的質感、刺繡的縫線以及染色效果。
測評結果:
人像攝影
在寫實人像中,模型對手部的生成效果是評價模型能力的關鍵維度,在人像攝影這個版塊我們也重點測評了手部細節。
Prompt:Create a highly realistic photograph of two young girls closely huddled together in a begging pose. Both girls should be positioned with their palms facing upward, clearly showing the details of their hands. Ensure that the hands are prominently displayed and in sharp focus, with visible textures such as skin folds and minor imperfections. The girls should have expressive, pleading faces with a look of vulnerability and hope. They are in a dimly lit urban environment, with subtle hints of background elements like a city sidewalk or street. The lighting should highlight their facial expressions and hands, capturing a raw, emotional moment. The overall style should be a high-resolution, lifelike photograph.
中文prompt:生成一張高度寫實的攝影作品,畫面中有兩個小女孩緊緊貼在一起,做出乞討的姿勢。兩個女孩的雙手掌心向上,清晰地展示手部細節,確保手部特征明顯且聚焦清晰,展現皮膚的褶皺和細微的瑕疵。女孩們的面部表情充滿乞求和希望,表現出脆弱的神情,捕捉一個真實而富有情感的瞬間。背景是一個微暗的城市環境,隱約能看見街道或人行道的元素。
測評結果:
家居設計
Prompt:Create a high-quality, realistic living room scene that highlights modern Scandinavian design. The room should feature a minimalist gray sofa with wooden legs, a round oak coffee table, and a large indoor plant next to the sofa. The walls should be painted in a soft, neutral tone, and a large abstract art piece should hang above the sofa. The room is well-lit with natural sunlight streaming through large, floor-to-ceiling windows, reflecting off a light wooden floor. The atmosphere should feel warm, inviting, and stylish, ideal for a home design advertisement.
中文prompt:創建一個高質量、逼真的客廳場景,突出現代斯堪的納維亞設計風格。房間應包含一張帶木腿的極簡灰色沙發,一個圓形橡木咖啡桌,沙發旁邊有一盆大型室內植物。墻壁色調柔和,沙發上方掛有一幅大型抽象藝術作品。房間光線充足,自然陽光通過落地窗照射進來,反射在淺色木地板上。整體氛圍應溫暖、宜人且時尚,適合用于家居設計廣告。
測評結果:
通過上文對各個模型在不同風格表現的測評,相信讀者朋友們心中也有了自己的判斷,在筆者的主觀感受中,FLUX.1 系列模型起碼在后幾個偏現實畫風的家居設計、人像攝影、電商圖片的生圖質量上是遙遙領先的,除了在印象派風格生成中風格不太還原外,在其余風格中 FLUX.1 系列都得到了不同程度的標紅。
而 Auraflow 也展現出了它在藝術方面的特長,在奇幻風、動漫風、藝術風格上都有不錯的表現,但在寫實風格上直接棄賽,能感受到 Auraflow 希望作為特長生在市場立足。相對而言,前幾個月還在被寄予厚望的 SD3 目前處于一個中不溜的尷尬位置。可以說是后生可畏。
二、誰也不能一直為愛發電,新的開源基座模型能走多遠?
FLUX.1 推出之后,就有一些創業者在即刻上表示“開源生圖模型有救了”。這是因為 SD 由于自身經營不善的原因,導致其無法再無限制地開源模型,為愛發電。而依附于 SD 做開發的一些創業者,也受到影響。而 FLUX.1 和 Auraflow 等新開源模型的出現,將打破這一困境。
圖片來源:即友post(侵刪)
在之前的文章中我們梳理了 SD 的商業模式,(參見《幾乎所有創企都在用的 Stable Diffusion,真的可能要甩賣了》)Stability AI 是靠 API、企業服務、AI 相關的咨詢這 3 種模式來賺錢。它的商業化模式主要靠開源打出知名度,再靠 API 和企業定制產品在 B 端賺錢。但之前也分析到,完全開源+API 的商業模式有其固有缺陷,為滿足離線部署的需求,SD 在設計時就比閉源模型參數更少,雖然更輕量,但這也讓 SD 原模型的生圖效果不如閉源模型,直接調用 API,無法滿足多數廠商的業務落地需求。而在價格上,相對一些自行部署的云廠商和第三方 API,SD 的 API 也沒有優勢。
圖片來源:白鯨出海2024年5月份根據公開信息整理
雖然后續 SD 也試圖通過一系列商業化嘗試自救,如限制自行部署模型商用、推出不同產品線的產品如 Stable artisan、Stable Audio、Stable Assistant,面向不同 C 端用戶并收取訂閱費,但目前還沒有看到這些措施的效果。
圖片:Stable Audio的付款頁面
SD 在商業模式上存在缺陷,人事動蕩風波不斷,從 Stability.ai 出走的 BFL(黑森林實驗室)是否能帶著 FLUX.1 走出一條屬于自己的商業化道路,持續為生圖賽道“貢獻”基座模型,無疑將成為這場出道爆紅后大家重點關注的問題。
FLUX.1 商業化道路:左手開源,右手閉源,還有一群快樂的小伙伴~
從FLUX.1的產品設計來看,BFL 共推出了三個版本,分別是 FLUX.1 [pro]、FLUX.1 [dev]和 FLUX.1 [schnell],每個版本都有其特定的使用場景和優勢。
FLUX.1 [pro]:這是 FLUX.1 系列中的旗艦版本,官方的口徑是提供最先進的圖像生成性能,包括頂級的提示詞遵循、視覺質量、圖像細節和輸出多樣性。FLUX.1 [pro]是閉源模型,需要通過 API 訪問,付費使用,專為商業用途設計,適用于需要頂級圖像生成質量的商業應用,如高端廣告、藝術創作等。
FLUX.1 [dev]:這是一個開源的引導蒸餾模型,直接從 FLUX.1 [pro]蒸餾而來。FLUX.1 [dev]獲得了類似的質量和提示詞遵循能力,比同等大小的標準模型更高效。適用于學術研究,但不能用于商業用途,允許開發者探索和實驗模型的能力。
FLUX.1 [schnell]:這是系列中最輕量的版本,專為本地部署和個人使用量身定制。FLUX.1 [schnell]可在 Apache 2.0(一款開源程度高,商業應用友好的許可證)下公開獲取,等同于完全開源。
從 FLUX.1 系列的版本設計中我們可以看出,FLUX.1 采用開源+閉源模式,用開源版本來建立生態和影響力,閉源版本賣 API。FLUX.1 [dev] 和 FLUX.1 [schnell]作為開源模型,有助于吸引開發者、學術研究者和個人愛好者,建立品牌忠誠度和技術影響力,不僅加速了技術的迭代和改進,還建立了一個活躍的用戶和開發者社區,間接促進商業版本的銷售。
FLUX.1 [pro]作為閉源模型,專為商業用途設計,在上文不同風格的測評中得到的平均分高于 4,硬實力能打是得到驗證的,在網絡上的其他測評中,FLUX.1 [pro]也能與 MidJourney V6.0 或 OpenAI DALL-E 3 等流行的閉源模型打個平手甚至超越,上來就相對清晰的商業模式,能在很大一定程度上避免后面遇到的商業化困境。
BFL 對商業模式的打算也能在其種子輪領投方 Andreessen Horowitz(a16z)官網上得到印證。投資方表示 BFL 在構建一個專注于開發者的可持續商業模式,他們計劃提供付費的 API 訪問和定制化的企業解決方案。
圖源:Andreessen Horowitz(a16z)官網
圖源:BFL官網
值得一提的是,FLUX.1 還與模型托管平臺 Replicate 和 Fal.ai 有合作,其中 Fal.ai 是本文的另一個文生圖模型 Auraflow 的開發者。
圖源:BFL官網
同時 FLUX.1 還與 xAI 這周剛出的 Grok-2 合作了。
圖源:xAI 官網
圖源:x.com
不難看出 BFL 的小伙伴還挺多,FLUX.1 與 Replicate 和 Fal.ai 的合作可能采取 API 集成和擴展服務、模型托管和部署以及聯合開發和優化等多種形式,BFL 或許能基于收入分成。與 Grok-2 的合作上,xAI 的負責人在 X 上對 BFL 表示感謝,稱 BFL 團隊對 FLUX.1 的推理 API 進行了擴展或升級,以支持 Grok-2 的發布。雖然沒有披露更多的商業合作信息,但聯合開發新模型或提供定制化解決方案應該會給 BFL 帶來一些收入。通過與這些平臺的緊密合作,FLUX.1 能夠觸達更廣泛的開發者和企業用戶,從而迅速擴大用戶基礎,建立生態系統。
Fal.ai:Auraflow 作為模型托管平臺商業化的必要一步
在做這次基座模型的選題之前,包括我們在內的很多人可能并不熟悉 Fal.ai,但在很多從業者眼里,這個網站也算是一個“寶藏工具”了。從定位上看,與 BFL 明明白白“We make models”不同,Fal.ai 的業務范圍更廣。當我們打開 Fal.ai 的官網可以看出這是一個集合大量三方模型、提供 API 調用服務的模型托管平臺,而如今這個托管平臺,卻開始研發生圖模型,聽上去在情理之外。
“對于我們做生圖社區或者說模型托管的平臺來說,其發展的根本,可能就是基座模型,更多基座模型的創新和上線,會帶來更多的用戶與調用,繁榮生態。反之,哪一天如果基座模型不再更新,生圖社區和模型托管平臺的‘發展基礎’也就沒了。”AIGC 圖片從業者思源告訴我們,而這也大概是 Fal.ai 做 Auraflow 的初衷。據悉,一些出海的生圖社區也在考慮自研模型,來應對未來可能發生的變化。
而對于 Fal.ai 來說,商業模式也基本確立,而 Auraflow 更像是一個“引流款”,穩固生態。
Auraflow 模型本身的使用條款,和 FLUX.1[schnell]一樣,采用了 Apache 2.0 開源許可證,也就是等同于完全開源,且可以商用。也就是說,Fal.ai 并不靠 Auraflow 賺錢,但這不是因為 Fal.ai 靠融資或其他,而是本身已經在賺錢。
據小道消息,Fal.ai 的團隊人數只有個位數,但產品能力極強,主要體現在“快”上,不僅模型兼容非常快,而且通用最快推理引擎。
圖源:Fal.ai官網
Fal.ai 官網在 Fal 的官網上重要的事說了不止三遍,平臺特色主打一個“快”字。它的模型庫頭版已經火速換上了最近爆火的 FLUX.1,網頁上也一再強調 Fal.ai 上的 demo 運行速度是無可匹敵的。
圖片來源:Fal.ai官網
Fal 開發了自己的推理引擎,稱 Fal 推理引擎 TM 是運行“Diffusion model”的最快方式。
所以依托自有引擎,Fal.ai 除了三方/自有 API 調用服務,用戶還能在 Fal 的平臺上部署和管理自己的私有 AI 模型,對模型進行參數調優并利用 GPU 資源進行高效推理。Fal 可以收取托管費用,尤其是對需要大量計算資源并有定制化需求的用戶。
其實,我們在社區中已經能看到不少國內開發者在實用 Fal.ai 的服務來構建自己的 AI 應用。同時,隨著自研模型的成本和技術門檻降低,Fal.ai 又擁有大量的數據,推出自研大模型也是性價比之選,而作為模型托管平臺,為開發者提供計算資源和便捷的開發環境,開發者自己是否要去自行部署模型,也要在心里盤算一番,畢竟開源≠免費,部署、推理都是需要服務器的,較高的顯存需求和偏低的 API 調用價格,能夠讓一部分沒有能力蒸餾模型的開發者選擇直接調用。
注:生圖性能均分由上文測評中各模型得分算平均分得出
經過上文的梳理,可以看出 Auraflow 和 FLUX.1 在生圖質量上相比 SD3 Medium 至少是不輸的,Auraflow 在奇幻和印象派等藝術風格上有特長,在單項上出色,也拉高了一點平均分,而 FLUX.1 系列整體的生圖質量都是要優于 SD3 Medium 的,除了 FLUX.1[pro]版本,幾乎所有模型調用 API 生成單張圖片所需成本都低于 SD3 Medium。讓兩個后來者,形成了一定的市場競爭力。
而這種局面,開發者們顯然喜聞樂見。
三、新模型你追我趕,大量網站已經上線
打開即刻,可以看到,大量的 AI“實驗者們”已經上線了很多網站,借助 FLUX 的模型能力,做插畫、做設計等等。而模型上線才不到 20 天,圍繞 FLUX 生態的資源網站也已經上線。開發者們對于 FLUX 的追捧無疑展現了市場需求。
而除了本文提到的 Auraflow、FLUX.1 和 SD3,其他模型也在不停推陳出新中,國內如騰訊混元文生圖大模型,快手的 Kolors、豆包大模型的升級版文生圖模型,國外還有 OpenAI 的 DALL-E3 和谷歌的 Imagen3 等等。
這一波模型你追我趕,“對我們來說意味著更多的創新可能性、更高的性能提升以及更廣泛的應用場景”,做 AI 圖像應用的楊楊認為。像文中提到的 FLUX.1 就支持從 0.1 到 2.0 百萬像素的多種分辨率和縱橫比,為創作者提供了很高的自由度。這使得開發者能夠創建適用于各種場景的 AI 生成圖像,從社交頭像、社媒封面到高清海報。而 Auraflow 背后的 Fal.ai 主打生成速度快,以實時 AI 推理基礎設施聞名,基于此開發出來的兩個 demo,Drawfast 和 Fal.ai Camera,也在社交媒體上走紅。
Drawfast 是一個實時協作繪圖工具,利用 Fal 的 AI 推理基礎設施提供直觀且響應迅速的繪圖體驗,允許多個用戶同時創建和編輯圖像,非常適合頭腦風暴、協作設計或休閑繪畫。
另一個產品 Fal.ai Camera 是一款 AI 驅動的相機應用,允許用戶在照片和視頻上使用各種 AI 驅動的濾鏡和效果,并實時查看預覽,可以應用于攝影、視頻創作和直播。和 Fal Camera 類似的 Deep live cam 在網絡上爆火也證明了這類實時 AI 換臉應用的市場,而這些應用的實現離不開主打快速實時生成的大模型。
Youtube博主@Defonten使用fal.ai camera視頻截圖
因為可供開發者選擇的模型更多了,開發者可以根據自身需求靈活地部署模型,盡可能在模型的通用性、可靠性和經濟性上取得一個適配產品的平衡。如更需要創作奇幻風或者動漫風場景的開發者就可以選擇藝術特長且便宜的 Auraflow,而對于一些對生圖質量有高要求的廣告創意工作者可以選擇出圖質量更穩但價更高的 FLUX.1 Pro。對于一些模型托管和資源集合型 AI 平臺來說,更多的模型也意味著可以訓練出更豐富多樣化的定制模型,涵蓋二次元、家裝、游戲、電商等不同的使用場景,形成不同的畫風參數。“我們是一個面向大眾的平臺,但差不多 50% 的用戶都是在職業場景下使用,建筑、設計、游戲、電商等等,在一年之前,其實生圖模型還不太能支持落地,現在也不能說可以直接應用,但慢慢地正在往能用上靠近”,思源說道。
技術之外,成本的降低也在讓一些 toC 的應用開始有可能跑通商業模式。與傳統互聯網時代,技術成本(非研發)基本上可以不太考慮不同,AI 產品的商業模式發生了根本變化,推理成為了一個重要的成本構成。“模型競爭越激烈,其成本就越容易打下來,相較于 1-2 年前,價格已經降了 10 倍不止,更多人能參與到這場技術革新之中來。”AI 繪畫產品創業者絲絲在一場播客中分享。