欄目導航

新聞資訊

新聞資訊

片來源@視覺中國

文｜智能Pro

科技圈當下最火話題，非Sora莫屬。Sora的影響力也早已沖出硅谷、輻射全球，在大洋彼岸的中國掀起滔天巨浪。

在二級市場，Sora概念股連日走高，勢頭比起當初的ChatGPT概念股有過之而無不及，比如2月20日，A股、港股Sora概念股板塊就有超過60只個股飄紅，其中5家企業股價暴漲40%以上。

在科技互聯網圈，爭奪中文版Sora首發權，成為巨頭的新目標。不過和當初的中文版ChatGPT首發爭奪戰相比，中文版Sora的研發難度也更大，大廠們大多面露難色。此前被盛傳將推出首個中文版Sora的字節跳動，就在20日辟謠，稱相關產品的效果距離Sora還有很大差距。

在Sora橫空出世前，國內“千模大戰”早已陷入膠著狀態，未曾想，風口突變，從圖文生成轉向視頻生成，“千模大戰”也將進入全新階段。

在上一階段稍稍落后的字節跳動在視頻業務上有先天優勢，自然不會錯過這個彎道超車的機會，這不僅事關大廠的面子，更是為了捍衛其核心業務——抖音CEO張楠突然辭職專攻剪映，也被視作是字節重視AIGC的動作。

雖然沒有中文版Sora，但字節一直在死磕AI

在文本生成式大模型領域，字節的起步時間無疑是比百度、阿里巴巴等大廠要晚，這也讓字節的高層十分懊惱。CEO梁汝波就在內部講話中直言，很難相信技術團隊直到2023年才討論GPT，要知道業內做得比較好的大模型企業都是在2018-2021年起步的。

好在，知恥而后勇，還有亡羊補牢的機會。

一開始，字節希望以量取勝，在去年下半年扎堆上線了十多款AI產品。

這當中，既有大廠標配的基礎大模型“云雀”，也有在C端最流行的AI對話類應用，如“豆包”、“話爐”和“抖音小晴”，還有輔助創作的AI工具，如劇情創作平臺“BagelBell”、電商內容創作應用“即創”等。由字節技術副總裁洪定坤率領的新部門Flow，則在背后為這一系列AI產品保駕護航。

（圖片來自豆包官網）

據悉，字節還在內部開放了大量活水崗位，希望調集全公司最優秀的技術、產品人才集中精力搞AI。除了前面提到的洪定坤外，原飛書產品副總裁齊俊元、抖音社交負責人陸游、字節跳動產品與戰略副總裁朱駿等高管也先后馳援。甚至在國外，字節跳動也組織了50多人的研發團隊，負責推進“Cici”項目。

然而，字節在文本生成大模型這條賽道確實是落后了，即便后期不斷加大投入，恐怕也很難抹平差距。明白這個道理后，再結合自身的業務狀況，字節開始發力圖像、視頻生成領域，試圖確立差異化優勢。而在春節前后，內部的一系列人事變動、團隊重組，則是其為視頻生成大模型奮力一搏的最佳證明。

2月9日，張楠宣布辭去抖音集團CEO一職，原因是要把精力集中到剪映的發展上。眾所周知，張楠是字節內部最有權勢的高管之一，很多人將其視為僅次于集團CEO梁汝波的二把手。其掌管的抖音集團，則是字節最重要的業務，此次自降身份掌管剪映，在內部、外界都引發了不少爭議。

如今再看，作為一款視頻剪輯及輔助創作工具，剪映是字節業務版圖里和視頻生成大模型契合度最高的一環，是承載AI視頻創作業務的最佳抓手。像張楠這種級別的核心高管主動接管剪映，恰好說明字節對該項目的重視。

有消息指出，張楠去年已經把大部分精力花在剪映身上，抖音的各項業務分別交給韓尚佑（抖音集團新任CEO）、魏雯雯（抖音電商總裁）、蒲燕子（抖音本地生活負責人）等高管接手。

去年11月，剪映就悄悄內測了一項名為“Dreamina”的AI輔助工具，用戶只需要輸入文字，即可生成創意圖像。算上研發周期，該項目的立項至少在去年二季度前。如果上述消息屬實，張楠帶領的團隊應該在更早的時候就接手了字節的AI產品研發工作。

張楠正式官宣辭任集團CEO之后，也有消息稱其帶領的團隊將推出一個全新的AI視頻生成軟件。如今，這款備受期待的產品——“Boximator”，終于浮出水面，這也是字節沖擊中文版Sora的王牌。

Sora攪動一池春水，大模型改造短視頻行業

據悉，字節內部對“Boximator”的定位為創新性視頻生成大模型，將通過控制對象運動的方式，精確控制視頻人物、物體的運動。該模型采集的訓練數據來自webVid-10M數據集，并在PixelDance和ModelScope兩個視頻生成模型中進行訓練。

然而，正如字節日前的回應那般，視頻生成大模型的研發難度比想象中更大。根據字節方面的說法，“Boximator” 保真率、畫面質量、視頻時長等方面距離Sora還有很大差距，暫時不具備落地的條件，預計還要2-3個月才能開放測試。

但2-3個月，可以發生很多事情——Sora可能已經迭代到更先進的版本，和尚未落地的競品拉開更大差距；其他競爭對手也可能迎頭趕上，搶在字節之前推出同類產品。

對于這些可能性，字節跳動心里肯定有數，而且比誰都著急。原因很簡單：比起文本生成大模型，視頻生成大模型和字節跳動的短視頻、直播等核心業務關聯更緊密，影響也更大。

如果說搜索是第一個被ChatGPT顛覆的行業，那么長/短視頻肯定是最有可能被Sora顛覆的行業。正如當初谷歌、百度、360等巨頭傾力投入文本生成大模型研發那樣，字節在視頻生成大模型這一戰中也不容有失。因為隨著視頻生成大模型在日后逐漸普及，短視頻內容生產、營銷、變現等一系列邏輯都可能發生變化。

以內容生產為例，制作方對真人演員、編劇、剪輯人員的需求很有可能會減少，傳統的制作流程也會被大幅簡化、制作時長將被壓縮。這帶來的直接后果，不止是生產內容數量呈幾何級增長、成本明顯減少，也必將導致更殘酷的競爭，加速優勝劣汰。

在Sora走紅之后，有關剪映會不會被取代的問題已經迅速成為焦點話題。留給剪映的路只要一條，那就是主動擁抱AI，向Sora看齊。要是能成功抱上AI這條大腿，剪映的用戶體量可以再上一個臺階，商業化潛力也將大大提升。

舉個最簡單的例子，現在的剪映只提供基礎服務，收費模式很難推廣。但如果能像Sora那樣，提高內容創作者的效率、降低成本，收費也就更有底氣。Stability AI、Runway等獨角獸的估值大幅飆升，就證明了這條路線的可行性。

當然，因Sora而焦慮的大廠絕不止字節跳動一家。短視頻行業的另一個巨頭快手，還有愛奇藝、騰訊視頻、優酷、嗶哩嗶哩為首的流媒體平臺，也必須啃下視頻生成大模型這塊硬骨頭。

可能是Sora的沖擊太大，還需要時間消化，也可能是吸取之前的教訓，先埋頭干實事不著急到臺前造勢，上述大廠大多尚未表態是否及何時推出類Sora應用。截止發稿時，只有芒果超媒表態將探索文生視頻等AI技術在傳媒領域的落地。但明眼人都看得出，這些大廠沒有一個會缺席這場全新的“千模大戰”。

有危機感，就會有動力。大廠們集體沖刺，到底誰能率先撞線？

沖刺中文版Sora，哪家中國大廠先撞線？

要猜測誰能率先研發出中文版Sora，或者說類Sora視頻生成大模型，得先看一下這類產品的研發難點。

從openAI公布的報告來看，Sora并沒有應用什么全新研發成果，核心技術都是早已公開的。這當中，視頻壓縮網絡、擴散模型、視覺補丁（類似于本文生成大模型的文本標記）、圖像及視頻編輯是最關鍵的幾個環節。本質上講，Sora仍是一個基于Transformer架構的擴散模型，和ChatGPT有很多相似之處。

當中的技術原理和繁瑣的訓練流程，這里不再一一展開。可以確定的是，大廠們都具備開發中文版Sora的基礎，起跑線不會有太大差距。除了考驗財力之外，和之前的中文版ChatGPT之爭一樣，數據樣本、算力、測試條件，將很大程度上左右最終賽果。

這當中，數據樣本關系著大模型的效果，訓練數據越豐富、越完整，視頻大模型就能越接近物理世界的真實情況。算力則是訓練效率的決定性因素，是跑贏競爭對手的關鍵。測試環節更多是決定了產品落地效果，以及穩定性。

硅谷巨頭的選擇出奇一致，都在拼算力。openAI CEO阿爾特曼表示，計劃籌集8萬億美元投資AI芯片，徹底解決AI大模型訓練的算力問題。微軟、Meta、谷歌等大廠在瘋狂囤積英偉達H100的同時，還在抓緊時間自研芯片。這些原本為文本生成大模型準備的殺招，現在能完美應用到視頻大模型身上。

國信證券在最新一份研報中指出，相較于ChatGPT等文本生成類大模型，Sora訓練數據量明顯高出一個級別，對算力的要求自然也更苛刻了。根據該研報援引的數據，以全球最大視頻分享網站YouTube為數據源，一年的增量視頻大約為157.68億秒，即便是采用英偉達最先進的H100，單次訓練也需要一個月，GPU消耗量為156.98萬張。

眾所周知，H100長期處于供不應求狀態。加上不可抗力影響，國內的大廠們在算力這一塊大概率會落后于硅谷巨頭，唯有在其他環節努力縮短差距。相較之下，字節在訓練數據源這一塊就比其他大廠更有優勢。

要知道，Sora對比其早前的PixelDance、Stable Video Diffusion等未成形視頻大模型有顯著提升，數據量是很關鍵的一點。抖音和TikTok是國內和海外市場用戶、創作者規模最大的短視頻應用，擁有最多的短視頻內容，可用于訓練大模型。更不用說，字節旗下還有、西瓜視頻等內容庫，完全不愁數據源。不過其他大廠也不會落后太多，而且肯定會想方設法抹平差距。

這幾天的觀察下來，和當初同樣出道即紅遍全球的ChatGPT不同，業界人士對Sora的態度除了贊嘆、敬佩，還帶著更深的恐懼。這不僅是因為Sora的視覺沖擊力比ChatGPT更強，還因為前者對相應產業的改變路徑是相當清晰的——這也決定了大廠會傾注更多的資源，務求盡快打贏這場硬仗。

總而言之，“千模大戰”已經進入新的階段。假以時日，我們肯定能看到很多中文版Sora。只不過對大廠來說，既然不可能成為“唯一”，就只有爭下“第一”才有意義。

繼ChatGPT成為全世界的焦點后，OpenAI再一次引爆了科技圈。

北京時間2月16日凌晨2點左右，美國OpenAI公司正式發布其首個文本－視頻生成模型Sora。據報道，Sora能夠根據文本提示創建詳細的視頻、擴展現有視頻中的敘述以及從靜態圖像生成場景。

相較于文生圖來說，文生視頻難度更高，在數據質量、算力以及多融合技術的復雜性上都有諸多需要突破的關卡，所以一直以來文生視頻的發展并不算順利。

沒想到OpenAI一出手就是王炸，Sora的實力可以說是藐視同行的存在。Sora 在日語中是“天空”的意思，引申含義還有“自由”，這不禁讓我們想到馬斯克“我們的目標是星辰大海”的豪情壯志。

OpenAI也強調“Sora是能夠理解和模擬現實世界的模型的基礎，我們相信這一功能將成為實現通用人工智能（AGI）的重要里程碑。”

同行們紛紛對Sora發出贊嘆：馬斯克「人類愿賭服輸」，Runway聯合創始人「game on」的感慨，360董事長周鴻祎作出“Sora意味著AGI實現將從10年縮短到1年”的預判，前阿里總裁賈揚清也評價道「非常牛」……

業界更是吹爆它“炸裂”“史詩級”“現實不存在了”……

那么，Sora為什么能獨樹一幟？Sora崛起將改變哪些行業？作為視頻內容生產者，又該如何應對這場技術“大考”呢？

Sora碾壓同行，OpenAI沒有天花板

Sora模型是一個文生視頻產品，通過簡短或詳細的提示詞描述，或一張靜態圖片，Sora就能生成類似電影的逼真場景，涵蓋多個角色、不同類型動作和背景細節等。

簡單理解就是，只要輸入一句話，AI就會根據你的描述，生成一段視頻。

在Sora一口氣發布的48個演示視頻中，隨便挑兩個讓大家感受一下Sora的實力。

比如，AI想象中的龍年春節，紅旗招展人山人海。有不少兒童好奇抬頭觀望舞龍隊伍，也有不少人掏出手機邊跟邊拍，海量人物角色各有各的行為。

再比如，一位時尚女性穿著黑色皮夾克、紅色長裙和黑色靴子走在東京街道上，她戴著太陽鏡，涂著紅色口紅，拎著黑色錢包，走路自信又隨意。而剛下過雨的東京街道潮濕且反光，在彩色燈光的照射下形成鏡面效果，細節超贊。

相比Runway、Pika等市面上現有的AI視頻模型，Sora展示出了遠超預期的能力，主要表現在這三點上。

第一，是視頻長度的巨大提升，像Runway、Pika這些AI視頻模型僅能生成不足10秒，而Sora的視頻生成長度突破到了60秒。第二，是視頻內容更加穩定。相比于其他AI視頻模型鏡頭視角單一、內容高度失真，Sora的視頻能實現單視頻的多角度鏡頭切換，最大限度還原現實世界的真實場景，保持了合理的連貫性。

是深刻的語言理解能力，Sora能夠深層次識別用戶的指令，從而在生成的視頻中呈現出豐富的表情和生動的情感，還表現出對物理世界部分規律的理解。

總之，Sora解決了過去AI視頻被詬病的很多問題，它能形成更清晰的生成畫面、更逼真的生成效果、更準確的理解能力、更順暢的邏輯理解能力、更穩定和一致性的生成結果等等，目前，Sora已經成為最強的AI視頻生成類模型。

而從技術層面來說，Sora之所以能夠碾壓同行，在于它采取了一個新的架構——Diffusion transformer模型。與Runway、Pika等主流AI視頻聚焦于擴散模型不同，Sora這個模型融合了擴散模型與自回歸模型的雙重特性。

在這個新模型架構中，OpenAI沿用了此前大語言模型的思路，提出了一種用Patch（視覺補丁）作為視頻數據來訓練視頻模型的方式。

簡單理解，就是將視頻和圖片切成很多小塊（這些小塊就是Patch），OpenAI通過這種方式將視頻壓縮到一個低維空間，再用擴散模型模擬物理過程中的擴散現象來生成內容數據，生成的視頻一開始看起來像靜態噪音，然后通過多個步驟去除噪音，逐步轉換視頻。

不得不說，從文字（ChatGPT）到圖片（DALL·E ）再到視頻（Sora），OpenAI團隊就好像沒有能力天花板一樣。

Sora以碾壓式的優勢勝出后，資本端同時傳來好消息。在完成最新交易后，OpenAI的估值已飆升至800億美元以上。紐約時報報道也稱，現在OpenAI的估值或達到約800億美元。

“AI視頻生成元年”來了

如果說2023年還是AI圖文生成元年的話，那么今年OpenAI將推動行業進入AI視頻生成元年。

事實上，在Sora發布前，探索AI視頻模型的公司并不少，根據知名投資機構a16z此前的統計，截至2024年底，市場上共有21個公開的AI視頻模型，包括大眾熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

以Runway為例，在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資后，估值超過15億美元。

但在Sora發布前，幾乎所有的 AI 視頻生成公司都陷入了同質化競爭，他們希望AI應用率先垂直落地到影視和廣告場景，所以過多關注更高畫質、更高成功率、更低成本，并且他們將能生成15秒視頻作為一個里程碑。而Sora將眼光看向了更大時長的世界模型，這也是Sora成功的秘訣。

在OpenAI公布的Sora技術報告里談道：“我們相信Sora今天展現出來的能力，證明了視頻模型的持續擴展（Scaling）是開發物理和數字世界（包含了生活在其中的物體、動物和人）模擬器的一條有希望的路。”?

換言之，OpenAI更愿意把Sora 視為理解和模擬現實世界的模型基礎，而不是AI應用落地的場景。這意味著，相比其他玩家，OpenAI的思維永遠更進一步。

面對Sora的降維打擊，AI視頻領域的創業者紛紛開啟了追趕模式。比如Runway已經做好了“Game On”的準備；Pika創始人郭文景一樣，開始籌備對標Sora的新產品……

而幾乎是同一天，谷歌也發布了自家的最新大模型 Gemini 1.5。據介紹，Gemini 1.5的上下文窗口高達100萬個tokens，可以一次處理大量的信息——如1小時的視頻、11小時的音頻、3萬多行的代碼等。

谷歌稱，Gemini 1.5 Pro性能水平與谷歌迄今為止最大的模型1.0 Ultra 類似，并引入了長上下文理解方面的突破性實驗特征，性能、文本長度均超越了GPT-4 Turbo。

Meta也不甘示弱，在近日公布了一種視頻聯合嵌入預測架構技術V-JEPA。據報道，這是一種通過觀看視頻教會機器理解和模擬物理世界的方法，V-JEPA可以通過自己觀看視頻來學習，而不需要人類監督，也不需要對視頻數據集進行標記，甚至根據一張靜止圖片來生成一個動態的視頻。

與其他模型相比，V-JEPA的靈活性使其在訓練和樣本效率上實現了1.5到6倍的提升。跑分方面，V-JEPA在Kinetics-400達到了82.0%的準確率，高于同行。

目前來看，國際上頭部科技巨頭基本已入局，大致可以分為“科技巨頭+創業派+專業派”的組合，科技巨頭以谷歌、Meta為代表，專業派以Adobe此類面向專業級用戶的老牌軟件巨頭為代表，創業派以Runway、Pika為代表。

而國內目前的競爭格局還尚不清晰，目前大廠正在積極押注視頻生成，比如字節跳動的文生視頻模型MagicVideo-V2、阿達摩院的Zeroscope等。只能說，國內大廠也很忙，大語言模型大戰才剛打響不久，現在又開始準備卷下一場戰役。

但AI視頻生成確實是一個頗具前景的創業賽道。目前來看，Midjourney估值100億美元，Stability AI估值40億美元，Runway估值15億美元，就連成立時間不足一年的新貴Pika的估值已經達到2.5億美元。

視頻內容生產者慌不慌？

那么Sora的崛起，會影響哪些行業呢？

首當其沖的是傳統影視行業。不少導演都說，影視行業“要變天了”。畢竟Sora能夠生成長達60秒的視頻，包括精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。

而以往需要大量時間和資源來制作的特效和場景，現在可能只需要輸入一些文字描述，Sora就能夠自動生成這些高質量畫面，這能夠大大減少影視制作的預算，從前大幾百萬的影視制作現在或許只要十分之一，同時也能夠代替一些不重要的職位，比如群演、燈光布置。

與此同時，還會有一個趨勢，就是影視作品的門檻會急劇降低。對于一個年輕人來說，只要他腦海里有一個好故事，就能夠依靠AI視頻技術低成本創作出來。

其次，廣告行業也能夠被顛覆掉，特別是一些汽車廣告、美食廣告、旅游景點的廣告，這些并不需要復雜情節的廣告作品很容易被AI替代掉。

再者，短視頻行業也會受到不小的沖擊，由于Sora可以生成60秒的視頻，會降低每一個普通人創作視頻的門檻，對于抖音乃至TikTok來說，都會出現不少生成視頻的內容。

最后是游戲開發和新聞媒體行業。AI可以輔助創造更加復雜和真實的視覺效果，這使得游戲開發者能夠更快速、更高效地創建游戲內容和場景，同時也可以減少制作成本。

新聞行業中，Sora可以幫助快速生成新聞報道中所需的視頻素材，尤其是在緊急情況下的現場報道。

當行業紛紛為Sora叫好的同時，萬千視頻生產者心里也難免復雜，Sora如此強大，科技已經如此恐怖，人類還能做什么？

不少網友直呼，工作要丟了，我該怎么辦？

從內容創作者的角度來說，Sora帶來的影響也需要辯證看待。

首先看悲觀的方面，秉承著“萬物不為我所有，萬物為我所用”的原則，Sora能夠代替人類完成一些簡單、重復、追趕時效的工作。比如追逐熱點和比拼速度的能力，人類創作者無論怎么努力也比不過AI。因此，可以預料到，未來“抓熱點”性質的視頻內容將會嚴重過剩，一部分內容方將被淘汰出局。

其次看積極的方面，Sora不具備創作者所必需的“靈魂”，不能勝任需要高度邏輯分析能力的深度解讀，不能完全取代人類的專業技能和創造力。

所以優質的創作者完全可以與AI達成分工，AI負責信息與材料的收集（即重復勞動），而自己負責專業性的輸出。

另外，Sora的實用價值還值得懷疑，它依然有不小的問題，比如它可能難以準確模擬復雜場景的物理原理；可能無法理解因果關系；還可能混淆提示的空間細節；可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡等。

其實，在AI 發展的數年沉浮之中，有關AI替代人類的種種爭論從未停止，但“變”是常態，“不變”才不正常。

借用馬斯克的一句話，“悲觀毫無意義，我寧愿樂觀”。生成視頻的時代已經到來，與其擔驚受怕地度過，不如抓緊人類手中的舵，投身這個AI新浪潮。

參考資料

《OpenAI發布首個視頻生成模型，1分鐘流暢高清，網友：整個行業RIP》學術頭條

《詳解Sora，為什么是AGI的又一個里程碑時刻？》36kr