操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    片來源@視覺中國

    文|智能Pro

    科技圈當下最火話題,非Sora莫屬。Sora的影響力也早已沖出硅谷、輻射全球,在大洋彼岸的中國掀起滔天巨浪。

    在二級市場,Sora概念股連日走高,勢頭比起當初的ChatGPT概念股有過之而無不及,比如2月20日,A股、港股Sora概念股板塊就有超過60只個股飄紅,其中5家企業股價暴漲40%以上。

    在科技互聯網圈,爭奪中文版Sora首發權,成為巨頭的新目標。不過和當初的中文版ChatGPT首發爭奪戰相比,中文版Sora的研發難度也更大,大廠們大多面露難色。此前被盛傳將推出首個中文版Sora的字節跳動,就在20日辟謠,稱相關產品的效果距離Sora還有很大差距。

    在Sora橫空出世前,國內“千模大戰”早已陷入膠著狀態,未曾想,風口突變,從圖文生成轉向視頻生成,“千模大戰”也將進入全新階段。

    在上一階段稍稍落后的字節跳動在視頻業務上有先天優勢,自然不會錯過這個彎道超車的機會,這不僅事關大廠的面子,更是為了捍衛其核心業務——抖音CEO張楠突然辭職專攻剪映,也被視作是字節重視AIGC的動作。

    雖然沒有中文版Sora,但字節一直在死磕AI

    在文本生成式大模型領域,字節的起步時間無疑是比百度、阿里巴巴等大廠要晚,這也讓字節的高層十分懊惱。CEO梁汝波就在內部講話中直言,很難相信技術團隊直到2023年才討論GPT,要知道業內做得比較好的大模型企業都是在2018-2021年起步的。

    好在,知恥而后勇,還有亡羊補牢的機會。

    一開始,字節希望以量取勝,在去年下半年扎堆上線了十多款AI產品。

    這當中,既有大廠標配的基礎大模型“云雀”,也有在C端最流行的AI對話類應用,如“豆包”、“話爐”和“抖音小晴”,還有輔助創作的AI工具,如劇情創作平臺“BagelBell”、電商內容創作應用“即創”等。由字節技術副總裁洪定坤率領的新部門Flow,則在背后為這一系列AI產品保駕護航。

    (圖片來自豆包官網)

    據悉,字節還在內部開放了大量活水崗位,希望調集全公司最優秀的技術、產品人才集中精力搞AI。除了前面提到的洪定坤外,原飛書產品副總裁齊俊元、抖音社交負責人陸游、字節跳動產品與戰略副總裁朱駿等高管也先后馳援。甚至在國外,字節跳動也組織了50多人的研發團隊,負責推進“Cici”項目。

    然而,字節在文本生成大模型這條賽道確實是落后了,即便后期不斷加大投入,恐怕也很難抹平差距。明白這個道理后,再結合自身的業務狀況,字節開始發力圖像、視頻生成領域,試圖確立差異化優勢。而在春節前后,內部的一系列人事變動、團隊重組,則是其為視頻生成大模型奮力一搏的最佳證明。

    2月9日,張楠宣布辭去抖音集團CEO一職,原因是要把精力集中到剪映的發展上。眾所周知,張楠是字節內部最有權勢的高管之一,很多人將其視為僅次于集團CEO梁汝波的二把手。其掌管的抖音集團,則是字節最重要的業務,此次自降身份掌管剪映,在內部、外界都引發了不少爭議。

    如今再看,作為一款視頻剪輯及輔助創作工具,剪映是字節業務版圖里和視頻生成大模型契合度最高的一環,是承載AI視頻創作業務的最佳抓手。像張楠這種級別的核心高管主動接管剪映,恰好說明字節對該項目的重視。

    有消息指出,張楠去年已經把大部分精力花在剪映身上,抖音的各項業務分別交給韓尚佑(抖音集團新任CEO)、魏雯雯(抖音電商總裁)、蒲燕子(抖音本地生活負責人)等高管接手。

    去年11月,剪映就悄悄內測了一項名為“Dreamina”的AI輔助工具,用戶只需要輸入文字,即可生成創意圖像。算上研發周期,該項目的立項至少在去年二季度前。如果上述消息屬實,張楠帶領的團隊應該在更早的時候就接手了字節的AI產品研發工作。

    張楠正式官宣辭任集團CEO之后,也有消息稱其帶領的團隊將推出一個全新的AI視頻生成軟件。如今,這款備受期待的產品——“Boximator”,終于浮出水面,這也是字節沖擊中文版Sora的王牌。

    Sora攪動一池春水,大模型改造短視頻行業

    據悉,字節內部對“Boximator”的定位為創新性視頻生成大模型,將通過控制對象運動的方式,精確控制視頻人物、物體的運動。該模型采集的訓練數據來自webVid-10M數據集,并在PixelDance和ModelScope兩個視頻生成模型中進行訓練。

    然而,正如字節日前的回應那般,視頻生成大模型的研發難度比想象中更大。根據字節方面的說法,“Boximator” 保真率、畫面質量、視頻時長等方面距離Sora還有很大差距,暫時不具備落地的條件,預計還要2-3個月才能開放測試。

    但2-3個月,可以發生很多事情——Sora可能已經迭代到更先進的版本,和尚未落地的競品拉開更大差距;其他競爭對手也可能迎頭趕上,搶在字節之前推出同類產品。

    對于這些可能性,字節跳動心里肯定有數,而且比誰都著急。原因很簡單:比起文本生成大模型,視頻生成大模型和字節跳動的短視頻、直播等核心業務關聯更緊密,影響也更大。

    如果說搜索是第一個被ChatGPT顛覆的行業,那么長/短視頻肯定是最有可能被Sora顛覆的行業。正如當初谷歌、百度、360等巨頭傾力投入文本生成大模型研發那樣,字節在視頻生成大模型這一戰中也不容有失。因為隨著視頻生成大模型在日后逐漸普及,短視頻內容生產、營銷、變現等一系列邏輯都可能發生變化。

    以內容生產為例,制作方對真人演員、編劇、剪輯人員的需求很有可能會減少,傳統的制作流程也會被大幅簡化、制作時長將被壓縮。這帶來的直接后果,不止是生產內容數量呈幾何級增長、成本明顯減少,也必將導致更殘酷的競爭,加速優勝劣汰。

    在Sora走紅之后,有關剪映會不會被取代的問題已經迅速成為焦點話題。留給剪映的路只要一條,那就是主動擁抱AI,向Sora看齊。要是能成功抱上AI這條大腿,剪映的用戶體量可以再上一個臺階,商業化潛力也將大大提升。

    舉個最簡單的例子,現在的剪映只提供基礎服務,收費模式很難推廣。但如果能像Sora那樣,提高內容創作者的效率、降低成本,收費也就更有底氣。Stability AI、Runway等獨角獸的估值大幅飆升,就證明了這條路線的可行性。

    當然,因Sora而焦慮的大廠絕不止字節跳動一家。短視頻行業的另一個巨頭快手,還有愛奇藝、騰訊視頻、優酷、嗶哩嗶哩為首的流媒體平臺,也必須啃下視頻生成大模型這塊硬骨頭。

    可能是Sora的沖擊太大,還需要時間消化,也可能是吸取之前的教訓,先埋頭干實事不著急到臺前造勢,上述大廠大多尚未表態是否及何時推出類Sora應用。截止發稿時,只有芒果超媒表態將探索文生視頻等AI技術在傳媒領域的落地。但明眼人都看得出,這些大廠沒有一個會缺席這場全新的“千模大戰”。

    有危機感,就會有動力。大廠們集體沖刺,到底誰能率先撞線?

    沖刺中文版Sora,哪家中國大廠先撞線?

    要猜測誰能率先研發出中文版Sora,或者說類Sora視頻生成大模型,得先看一下這類產品的研發難點。

    從openAI公布的報告來看,Sora并沒有應用什么全新研發成果,核心技術都是早已公開的。這當中,視頻壓縮網絡、擴散模型、視覺補丁(類似于本文生成大模型的文本標記)、圖像及視頻編輯是最關鍵的幾個環節。本質上講,Sora仍是一個基于Transformer架構的擴散模型,和ChatGPT有很多相似之處。

    當中的技術原理和繁瑣的訓練流程,這里不再一一展開。可以確定的是,大廠們都具備開發中文版Sora的基礎,起跑線不會有太大差距。除了考驗財力之外,和之前的中文版ChatGPT之爭一樣,數據樣本、算力、測試條件,將很大程度上左右最終賽果。

    這當中,數據樣本關系著大模型的效果,訓練數據越豐富、越完整,視頻大模型就能越接近物理世界的真實情況。算力則是訓練效率的決定性因素,是跑贏競爭對手的關鍵。測試環節更多是決定了產品落地效果,以及穩定性。

    硅谷巨頭的選擇出奇一致,都在拼算力。openAI CEO阿爾特曼表示,計劃籌集8萬億美元投資AI芯片,徹底解決AI大模型訓練的算力問題。微軟、Meta、谷歌等大廠在瘋狂囤積英偉達H100的同時,還在抓緊時間自研芯片。這些原本為文本生成大模型準備的殺招,現在能完美應用到視頻大模型身上。

    國信證券在最新一份研報中指出,相較于ChatGPT等文本生成類大模型,Sora訓練數據量明顯高出一個級別,對算力的要求自然也更苛刻了。根據該研報援引的數據,以全球最大視頻分享網站YouTube為數據源,一年的增量視頻大約為157.68億秒,即便是采用英偉達最先進的H100,單次訓練也需要一個月,GPU消耗量為156.98萬張。

    眾所周知,H100長期處于供不應求狀態。加上不可抗力影響,國內的大廠們在算力這一塊大概率會落后于硅谷巨頭,唯有在其他環節努力縮短差距。相較之下,字節在訓練數據源這一塊就比其他大廠更有優勢。

    要知道,Sora對比其早前的PixelDance、Stable Video Diffusion等未成形視頻大模型有顯著提升,數據量是很關鍵的一點。抖音和TikTok是國內和海外市場用戶、創作者規模最大的短視頻應用,擁有最多的短視頻內容,可用于訓練大模型。更不用說,字節旗下還有、西瓜視頻等內容庫,完全不愁數據源。不過其他大廠也不會落后太多,而且肯定會想方設法抹平差距。

    這幾天的觀察下來,和當初同樣出道即紅遍全球的ChatGPT不同,業界人士對Sora的態度除了贊嘆、敬佩,還帶著更深的恐懼。這不僅是因為Sora的視覺沖擊力比ChatGPT更強,還因為前者對相應產業的改變路徑是相當清晰的——這也決定了大廠會傾注更多的資源,務求盡快打贏這場硬仗。

    總而言之,“千模大戰”已經進入新的階段。假以時日,我們肯定能看到很多中文版Sora。只不過對大廠來說,既然不可能成為“唯一”,就只有爭下“第一”才有意義。

    繼ChatGPT成為全世界的焦點后,OpenAI再一次引爆了科技圈。


    北京時間2月16日凌晨2點左右,美國OpenAI公司正式發布其首個文本-視頻生成模型Sora。據報道,Sora能夠根據文本提示創建詳細的視頻、擴展現有視頻中的敘述以及從靜態圖像生成場景。


    相較于文生圖來說,文生視頻難度更高,在數據質量、算力以及多融合技術的復雜性上都有諸多需要突破的關卡,所以一直以來文生視頻的發展并不算順利。


    沒想到OpenAI一出手就是王炸,Sora的實力可以說是藐視同行的存在。Sora 在日語中是“天空”的意思,引申含義還有“自由”,這不禁讓我們想到馬斯克“我們的目標是星辰大海”的豪情壯志。


    OpenAI也強調“Sora是能夠理解和模擬現實世界的模型的基礎,我們相信這一功能將成為實現通用人工智能(AGI)的重要里程碑。”


    同行們紛紛對Sora發出贊嘆:馬斯克「人類愿賭服輸」,Runway聯合創始人「game on」的感慨,360董事長周鴻祎作出“Sora意味著AGI實現將從10年縮短到1年”的預判,前阿里總裁賈揚清也評價道「非常牛」……



    業界更是吹爆它“炸裂”“史詩級”“現實不存在了”……


    那么,Sora為什么能獨樹一幟?Sora崛起將改變哪些行業?作為視頻內容生產者,又該如何應對這場技術“大考”呢?


    Sora碾壓同行,OpenAI沒有天花板


    Sora模型是一個文生視頻產品,通過簡短或詳細的提示詞描述,或一張靜態圖片,Sora就能生成類似電影的逼真場景,涵蓋多個角色、不同類型動作和背景細節等。


    簡單理解就是,只要輸入一句話,AI就會根據你的描述,生成一段視頻。


    在Sora一口氣發布的48個演示視頻中,隨便挑兩個讓大家感受一下Sora的實力。


    比如,AI想象中的龍年春節,紅旗招展人山人海。有不少兒童好奇抬頭觀望舞龍隊伍,也有不少人掏出手機邊跟邊拍,海量人物角色各有各的行為。



    再比如,一位時尚女性穿著黑色皮夾克、紅色長裙和黑色靴子走在東京街道上,她戴著太陽鏡,涂著紅色口紅,拎著黑色錢包,走路自信又隨意。而剛下過雨的東京街道潮濕且反光,在彩色燈光的照射下形成鏡面效果,細節超贊。



    相比Runway、Pika等市面上現有的AI視頻模型,Sora展示出了遠超預期的能力,主要表現在這三點上。


    第一,是視頻長度的巨大提升,像Runway、Pika這些AI視頻模型僅能生成不足10秒,而Sora的視頻生成長度突破到了60秒。第二,是視頻內容更加穩定。相比于其他AI視頻模型鏡頭視角單一、內容高度失真,Sora的視頻能實現單視頻的多角度鏡頭切換,最大限度還原現實世界的真實場景,保持了合理的連貫性。


    是深刻的語言理解能力,Sora能夠深層次識別用戶的指令,從而在生成的視頻中呈現出豐富的表情和生動的情感,還表現出對物理世界部分規律的理解。


    總之,Sora解決了過去AI視頻被詬病的很多問題,它能形成更清晰的生成畫面、更逼真的生成效果、更準確的理解能力、更順暢的邏輯理解能力、更穩定和一致性的生成結果等等,目前,Sora已經成為最強的AI視頻生成類模型。


    而從技術層面來說,Sora之所以能夠碾壓同行,在于它采取了一個新的架構——Diffusion transformer模型。與Runway、Pika等主流AI視頻聚焦于擴散模型不同,Sora這個模型融合了擴散模型與自回歸模型的雙重特性。


    在這個新模型架構中,OpenAI沿用了此前大語言模型的思路,提出了一種用Patch(視覺補丁)作為視頻數據來訓練視頻模型的方式。


    簡單理解,就是將視頻和圖片切成很多小塊(這些小塊就是Patch),OpenAI通過這種方式將視頻壓縮到一個低維空間,再用擴散模型模擬物理過程中的擴散現象來生成內容數據,生成的視頻一開始看起來像靜態噪音,然后通過多個步驟去除噪音,逐步轉換視頻。



    不得不說,從文字(ChatGPT)到圖片(DALL·E )再到視頻(Sora),OpenAI團隊就好像沒有能力天花板一樣。


    Sora以碾壓式的優勢勝出后,資本端同時傳來好消息。在完成最新交易后,OpenAI的估值已飆升至800億美元以上。紐約時報報道也稱,現在OpenAI的估值或達到約800億美元。


    “AI視頻生成元年”來了


    如果說2023年還是AI圖文生成元年的話,那么今年OpenAI將推動行業進入AI視頻生成元年。


    事實上,在Sora發布前,探索AI視頻模型的公司并不少,根據知名投資機構a16z此前的統計,截至2024年底,市場上共有21個公開的AI視頻模型,包括大眾熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。


    以Runway為例,在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資后,估值超過15億美元。



    但在Sora發布前,幾乎所有的 AI 視頻生成公司都陷入了同質化競爭,他們希望AI應用率先垂直落地到影視和廣告場景,所以過多關注更高畫質、更高成功率、更低成本,并且他們將能生成15秒視頻作為一個里程碑。而Sora將眼光看向了更大時長的世界模型,這也是Sora成功的秘訣。


    在OpenAI公布的Sora技術報告里談道:“我們相信Sora今天展現出來的能力,證明了視頻模型的持續擴展(Scaling)是開發物理和數字世界(包含了生活在其中的物體、動物和人)模擬器的一條有希望的路。”?


    換言之,OpenAI更愿意把Sora 視為理解和模擬現實世界的模型基礎,而不是AI應用落地的場景。這意味著,相比其他玩家,OpenAI的思維永遠更進一步。


    面對Sora的降維打擊,AI視頻領域的創業者紛紛開啟了追趕模式。比如Runway已經做好了“Game On”的準備;Pika創始人郭文景一樣,開始籌備對標Sora的新產品……


    而幾乎是同一天,谷歌也發布了自家的最新大模型 Gemini 1.5。據介紹,Gemini 1.5的上下文窗口高達100萬個tokens,可以一次處理大量的信息——如1小時的視頻、11小時的音頻、3萬多行的代碼等。


    谷歌稱,Gemini 1.5 Pro性能水平與谷歌迄今為止最大的模型1.0 Ultra 類似,并引入了長上下文理解方面的突破性實驗特征,性能、文本長度均超越了GPT-4 Turbo。



    Meta也不甘示弱,在近日公布了一種視頻聯合嵌入預測架構技術V-JEPA。據報道,這是一種通過觀看視頻教會機器理解和模擬物理世界的方法,V-JEPA可以通過自己觀看視頻來學習,而不需要人類監督,也不需要對視頻數據集進行標記,甚至根據一張靜止圖片來生成一個動態的視頻。


    與其他模型相比,V-JEPA的靈活性使其在訓練和樣本效率上實現了1.5到6倍的提升。跑分方面,V-JEPA在Kinetics-400達到了82.0%的準確率,高于同行。



    目前來看,國際上頭部科技巨頭基本已入局,大致可以分為“科技巨頭+創業派+專業派”的組合,科技巨頭以谷歌、Meta為代表,專業派以Adobe此類面向專業級用戶的老牌軟件巨頭為代表,創業派以Runway、Pika為代表。


    而國內目前的競爭格局還尚不清晰,目前大廠正在積極押注視頻生成,比如字節跳動的文生視頻模型MagicVideo-V2、阿達摩院的Zeroscope等。只能說,國內大廠也很忙,大語言模型大戰才剛打響不久,現在又開始準備卷下一場戰役。


    AI視頻生成確實是一個頗具前景的創業賽道。目前來看,Midjourney估值100億美元,Stability AI估值40億美元,Runway估值15億美元,就連成立時間不足一年的新貴Pika的估值已經達到2.5億美元。


    視頻內容生產者慌不慌?


    那么Sora的崛起,會影響哪些行業呢?


    首當其沖的是傳統影視行業。不少導演都說,影視行業“要變天了”。畢竟Sora能夠生成長達60秒的視頻,包括精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。


    而以往需要大量時間和資源來制作的特效和場景,現在可能只需要輸入一些文字描述,Sora就能夠自動生成這些高質量畫面,這能夠大大減少影視制作的預算,從前大幾百萬的影視制作現在或許只要十分之一,同時也能夠代替一些不重要的職位,比如群演、燈光布置。


    與此同時,還會有一個趨勢,就是影視作品的門檻會急劇降低。對于一個年輕人來說,只要他腦海里有一個好故事,就能夠依靠AI視頻技術低成本創作出來。


    其次,廣告行業也能夠被顛覆掉,特別是一些汽車廣告、美食廣告、旅游景點的廣告,這些并不需要復雜情節的廣告作品很容易被AI替代掉。


    再者,短視頻行業也會受到不小的沖擊,由于Sora可以生成60秒的視頻,會降低每一個普通人創作視頻的門檻,對于抖音乃至TikTok來說,都會出現不少生成視頻的內容。



    最后是游戲開發和新聞媒體行業。AI可以輔助創造更加復雜和真實的視覺效果,這使得游戲開發者能夠更快速、更高效地創建游戲內容和場景,同時也可以減少制作成本。


    新聞行業中,Sora可以幫助快速生成新聞報道中所需的視頻素材,尤其是在緊急情況下的現場報道。


    當行業紛紛為Sora叫好的同時,萬千視頻生產者心里也難免復雜,Sora如此強大,科技已經如此恐怖,人類還能做什么?


    不少網友直呼,工作要丟了,我該怎么辦?


    從內容創作者的角度來說,Sora帶來的影響也需要辯證看待。


    首先看悲觀的方面,秉承著“萬物不為我所有,萬物為我所用”的原則,Sora能夠代替人類完成一些簡單、重復、追趕時效的工作。比如追逐熱點和比拼速度的能力,人類創作者無論怎么努力也比不過AI。因此,可以預料到,未來“抓熱點”性質的視頻內容將會嚴重過剩,一部分內容方將被淘汰出局。


    其次看積極的方面,Sora不具備創作者所必需的“靈魂”,不能勝任需要高度邏輯分析能力的深度解讀,不能完全取代人類的專業技能和創造力。


    所以優質的創作者完全可以與AI達成分工,AI負責信息與材料的收集(即重復勞動),而自己負責專業性的輸出。


    另外,Sora的實用價值還值得懷疑,它依然有不小的問題,比如它可能難以準確模擬復雜場景的物理原理;可能無法理解因果關系;還可能混淆提示的空間細節;可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡等。


    其實,在AI 發展的數年沉浮之中,有關AI替代人類的種種爭論從未停止,但“變”是常態,“不變”才不正常。


    借用馬斯克的一句話,“悲觀毫無意義,我寧愿樂觀”。生成視頻的時代已經到來,與其擔驚受怕地度過,不如抓緊人類手中的舵,投身這個AI新浪潮。


    參考資料

    《OpenAI發布首個視頻生成模型,1分鐘流暢高清,網友:整個行業RIP》學術頭條

    《詳解Sora,為什么是AGI的又一個里程碑時刻?》36kr

    OpenAI文生視頻模型Sora官網

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有