們現在所處的不是AI時代,而是一個生成式AI時代。
是的,正如黃仁勛在臺北電腦展2024展前演講中所說,生成式AI技術正在不知不覺中影響著我們的生活與工作。而早在2014年就提出CUDA(通用計算平臺)概念的英偉達,已經嘗到人工智能帶給它的甜頭。
市值從1萬億美元到2.7萬億美元,英偉達僅僅用了一年左右的時間。從紙面數據來看,英偉達毫無疑問是這場AI革命的最大贏家,并且它還在這條道路上不斷前行。
6月2日晚,Computex 2024(2024臺北國際電腦展)在臺北貿易中心南港展覽館正式舉行,英偉達創始人和CEO黃仁勛登臺發表了主題為“Don't Walk”的主題演講,向全球系統且全面的展示了英偉達在加速計算和生成式AI的最近成果,同時分享了人工智能時代如何助推全球新產業革命。
圖源:Computex 2024
在這場兩個小時的演講中,黃仁勛宣布“全球最強大的芯片”Blackwell芯片正式投產,并表示將在2025年推出Blackwell Ultra AI芯片,2026年發布下一代全新架構Rubin,2027年繼續推出升級版Rubin Ultra,以及英偉達在GPU、CUDA、NIM等不同階段的產品線歷史。
老黃這一套連招下來,相信不少人已經被龐大的信息量砸得暈暈乎乎,那么英偉達即將給AI產業帶來什么改變?一起來看看。
英特爾和英偉達在不少領域面臨競爭關系,英特爾CEO帕特·基辛格不止一次在公開場合發表過自己對英偉達的看法,在某次采訪中,基辛格感嘆英偉達在人工智能領域“非常幸運”地占據了主導地位,并表示英偉達的“地位”本應該屬于英特爾。
英偉達在人工智能領域的主導地位究竟是不是運氣使然?這次黃仁勛公布的新架構路線圖或許正是最好的回應。
由英特爾創始人之一戈登·摩爾提出的摩爾定律,其核心內容為處理器性能大約每兩年翻一倍,同時價格下降為之前的一半。而英偉達直接將GPU架構的更新頻率從兩年一次更新,加速到一年一次。咱就先不說成本的事,就這更新頻率,大有掀翻摩爾定律的勢頭。當然,從7nm制程開始,一直有人說“摩爾定律已死”,最典型的就是英偉達CEO黃仁勛,英偉達能否給這個討論定下結論,讓我們共同期待。
圖源:Computex 2024
回到產品本身,Blackwell B200是NVIDIA Blackwell架構首款新產品,基于臺積電的4nm工藝打造,采用了將兩個Die連接成一個GPU的雙芯設計,因此每個GPU芯片上擁有2080億個晶體管,比起上一代GH100 GPU上的800億個晶體管,Blackwell B200 GPU算是一次相當大的突破。
在B200的基礎上,英偉達還推出了由兩個Blackwell B200 GPU和一個基于Arm的Grace CPU組成的完全體AI芯片組:Blackwell GB200。該架構主要是為了滿足未來AI工作負載的需求,為全球機構運行實時生成式AI提供了可能,而且其成本和能耗只有上一代Hopper GPU架構的二十五分之一。
雖然黃仁勛沒有透露2025年計劃推出Blackwell Ultra的具體情況,但參考Blackwell在性能、成本和能耗方面的提升,同架構升級版本的表現讓人無比期待。
來到2026年,命名源于美國女天文學家Vera Rubin的下一代GPU架構Rubin即將面世,將首次支持8層HBM4高帶寬存儲。屆時代號“Vera”的CPU將于Rubin GPU一同推出,組成Vera Rubin芯片。此外,Rubin平臺還將搭載新一代NVLink 6 Switch,提供3600GB/s的連接速度,以及1600GB/s的CX9 SuperNIC,以保證高效的數據傳輸。
圖源:Computex 2024
根據爆料,Rubin架構首款產品為R100,采用臺積電3nm EUV制造工藝,四重曝光技術,CoWoS-L封裝,預計2025年第四季度投產。
2027年,升級版“Rubin Ultra”,HBM4內存升級為12堆棧,容量更大,性能更高。
至此,英偉達未來4年的宏偉藍圖正式向我們展開,這一戰略規劃一直延伸到2027年,英偉達提前公布的方式盡顯自信。自信來源于底氣,黃仁勛在演講中直接將英偉達定義為全球生成式AI浪潮的來源及推動者:
人工智能崛起之所以有可能,完全因為我們相信只要讓強大的計算變得越來越便宜,總會有人找到巨大的用途。正因為我們利用特定算法將計算邊際成本降低了100萬級別,今天使用互聯網上的所有數據來訓練大模型才成為了所有人默認合乎邏輯的選擇,不再有人懷疑和質疑這個做法。而在英偉達這么做之前,沒有人預料到,沒有人提出這樣的需求,甚至沒有人理解全部潛力。
我們很難評判這番言論的對錯,但英偉達對全球生成式AI產業的貢獻大家有目共睹,其主張的CUDA已經達到了相對成熟階段,隨著CPU性能增長放緩,利用CUDA等技術加速計算任務又將成為應對計算需求的新寵兒,生成式AI也將成為全球下一次革命性的技術變革。
在演講中,黃仁勛還介紹了Earth-2 數字孿生地球、Isaac機器人平臺、nference Microservices等一系列AI工廠的內容。隨著業務的不斷擴展,我們似乎很難用一個或幾個詞來概括這家萬億市值級別的芯片巨頭了。
過去提起英偉達的優勢,大家最熟悉的必然是GPU、CUDA......,大體可以歸納為軟件構建生態,硬件堆砌算力。說到這里,又要請出老熟人英特爾CEO帕特·基辛格,因為他在酷睿Ultra發布會上表示:英偉達CUDA護城河又小又淺。
來到生成式AI時代,如果CUDA真如基辛格所說,無法成為英偉達的技術護城河,那么英偉達還能依靠什么呢?我想答案或許是AI網絡。
去年5月,英偉達在COMPUTEX 2023上發布了全球首個專為人工智能(AI)設計的高性能以太網架構Spectrum-X,其主要面向生成式AI市場。據介紹,Spectrum-X擁有無損網絡、動態路由、流量擁塞控制、多業務性能隔離等主要特性,能降低大模型訓練成本、縮短訓練時間。
圖源:英偉達
AI大模型之所以稱之為大,不僅是因為模型參數量大,還有日常訓練所需的龐大數據,這些先決條件導致大模型的訓練成本極高。
4月初,OpenAI的競爭對手Anthropic的首席執行官達里奧·阿莫代伊接受采訪時指出,目前市場上人工智能模型的培訓成本已高達約1億美元,預計到了2025年和2026年,這一成本將飆升至50億或100億美元。
其中的大部分費用被GPU消耗,以英偉達Blackwell處理器為例,訓練一個擁有1.8萬億參數的AI大模型需要大約2000個Blackwell GPU,如果將GPU換成Hopper,則大約需要8000個。
因此,不少企業選擇打造成千上萬GPU互聯的AI數據中心,其實也就是黃仁勛所說的AI工廠,只不過這個工廠生產的產品是訓練好的大模型。整體算力優勢能有效降低訓練成本,減輕企業從頭搭建AI大模型的復雜步驟,簡單來說,就是AI大模型訓練外包。
除了AI數據中心外,另一個方法就是前面提到的網絡架構。區別于傳統網絡,面向AI計算的網絡架構就是為了解決單一數據中心超載,從而需要多個地區的數據中心協同工作而存在的。
圖源:英偉達
從技術層面來看,Spectrum-X針對AI計算的高穩定性要求,進行了針對性優化,也就是多種軟硬件技術組成的系統級網絡架構,以解決AI訓練過程中N個GPU同步運行的負載,以及處理突發流量的能力。
隨著生成式AI的發展,數據量需求必然劇增,當純GPU和單一數據中心不足以解決數據負載問題時,成熟的網絡架構就會成為英偉達下個技術護城河。或許英偉達在布局時也沒有想到,這個原本用于傳統云計算的技術會成為生成式AI浪潮的關鍵。
英偉達公布的截至2024年4月28日的2025財年第一財季財報顯示,英偉達期內實現營收260.44億美元,同比上漲262%;凈利潤148.81億美元,同比上漲628%。財報數據公布后不久,英偉達股價迅速上漲,據統計,在過去的2023年中,英偉達股價漲幅超230%,今年以來漲幅已達到121.39%。
可以說,全球AI算力芯片龍頭,被稱為“AI時代賣鏟人”的英偉達在這輪生成式AI浪潮中賺得盆滿缽滿,也難怪老黃在演講時春風滿面。現在,英偉達的“卡”供不應求,不只是字節、百度等中國科技巨頭在搶著囤卡以應對極端情況,硅谷科技巨頭如微軟、Meta,也全都在找英偉達買卡。
圖源:英偉達
事實上,入局AI以及AI芯片的玩家越來越多,OpenAI以及谷歌等AI巨頭也將AI產品的競爭方向從大語言模型轉向多模態模型。可以預見的是,接下來幾年企業訓練AI的算力需求還會沖上一個新高峰,英偉達作為當前AI算力芯片領域的巨頭,持續增長幾乎是板上釘釘的事情。
當然,谷歌、OpenAI等玩家都在通過自己的方式試圖打破英偉達的算力霸權,短時間內或許很難實現抗衡,但市場不會坐視任何企業一家獨大,所有玩家都會繼續挑戰英偉達,直至成功。
英偉達能否再續輝煌,一年一款大更新帶來的效果究竟會有多驚人,我們很快就能知道答案。
2024年5月20日-6月30日,618年中大促來襲,淘寶天貓、京東、拼多多、抖音、快手、小紅書六大電商平臺集體“聽勸”,取消預售、瘋狂殺價!
手機數碼、AI PC、智能家電、電視、小家電、空冰洗等熱門AI硬科技品類摩拳擦掌,戰況激烈。
雷科技618報道團將全程關注電商平臺最新戰況,AI硬科技品牌最新動態,電商行業全新趨勢,敬請關注,一起期待。
三次工業革命真的要來了?!
6月2日晚,英偉達創始人和CEO黃仁勛在COMPUTEX開幕前發表了最新的主題演講。
在這場盛會上,英偉達的吸引力簡直可以用“震撼”來形容,它成功地把人工智能領域的頂尖專家和行業領導者聚集到了一起。現場的氣氛非常熱烈,有超過一萬名的線下參與者,場面壯觀。
而英偉達也沒讓大家失望,三個月前才讓我們見識了史上最強的2080億晶體管的 Blackwell芯片,現在又在演講上又給我們“放風”說下一代GPU架構已經在研發中了。這節奏,簡直像是在看連續劇,一季接著一季,永遠有新驚喜。
不僅如此,黃仁勛還展示了英偉達芯片產品的年度升級周期計劃,2025年英偉達會推出Blackwell Ultra,而2026年下一代架構名字為Rubin,2027年繼續推出Rubin Ultra,換句話說,以后自家的GPU 芯片一年一更新,其他家還怎么追?
在演講會上還英偉達還重磅推出了數字孿生地球 Earth-2,能夠模擬建筑物周圍的氣流,精準預測天氣信息,令人大開眼界。
對于AI領域,黃仁勛強調,未來,全球AI產業規模將高達100萬億美金,比之前IT時代的3萬億美元高出33倍以上,具有強大的市場前景。
他還堅信,下一波AI浪潮將是物理AI,尤其看好人形機器人,在演講上展示臺上環繞著九款先進的人形機器人。
整體來看,這場演講涵蓋了英偉達在AI 芯片及架構、加速計算、AI理解物理世界、機器人領域等諸多成果。
可以說作為生成式AI浪潮里最大的贏家,黃仁勛就是要告訴世界,這一切跟運氣無關,是英偉達預見并用實力創造了今天的一切。
首先咱們來看整場發布會上最重磅的硬件產品——Blackwell GPU。早在今年3 月,英偉達在其一年一度的 GTC 大會上就展示過這款芯片的原型。
這里提一下,英偉達的每款GPU架構都以一位科學家的名字命名,Blackwell架構的命名靈感來源于美國科學院的第一位黑人院士David Blackwell,以此向他的貢獻表示崇高的敬意。
如今才過去3個月,黃仁勛就在現場拿出了最新量產版的Blackwell,研發速度堪比神速,而且他表示,這款當今世界上最強大的 GPU 已經投入了生產。
黃仁勛說,生成式AI是這個時代的決定性技術,而Blackwell是推動這場新工業革命的引擎。
那么它到底有何神奇之處呢?首先Blackwell GPU目前號稱是“世界最強大的芯片”,集成2080億顆晶體管,采用定制臺積電4NP工藝,承襲“拼裝芯片”的思路,采用統一內存架構+雙芯配置,共有192GB HBM3e內存、8TB/s顯存帶寬,單卡AI訓練算力可達 20000 TFLOPS。
這個算力可謂是非常夸張了,黃仁勛對此表示稱,僅用了八年時間,英偉達就使得 AI 算力從 2016 年 Pascal 的 19 TFLOPS 提升到了 2024 年 Blackwell 的 20000 TFLOPS,整整提升了1000倍,這一速度幾乎超越了摩爾定律在最佳時期的增長。
隨著人工智能計算能力的增強,其成本也在逐年降低。
黃仁勛以GPT-4模型訓練為例,展示了這一變化。從2016年至今的八年時間里,這個擁有1.8萬億參數的模型在能耗方面有了顯著的改進,從超過1000GWh減少到了3GWh,降幅達到了驚人的350倍。
集成了 Blackwell 芯片的最新 DGX 超算系統在各方面都實現了質的提升。
跟上一代Hopper相比,Blackwell因為集成了兩個die,面積變大,比Hopper GPU足足多了1280億個晶體管,對比之下,前代H100只有80GB HBM3內存、3.35TB/s帶寬,H200有141GB HBM3e內存、4.8TB/s帶寬。
在迭代速度上,黃仁勛表示,英偉達將保持一年一次的更新節奏,已經趕上手機廠商的發布節奏。而且確保所有產品實現 100% 架構兼容,不過,他并沒有透露關于下一款的更多細節。
可以看到,英偉達推出全新 GPU 的速度已經遠遠把對手甩到了腦后,對此有人有業內人士評價道,由于強大到沒對手,現在英偉達也只能與摩爾定律展開競爭了...
在合作伙伴上,AWS、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI都將采用Blackwell產品。甚至特斯拉CEO馬斯克直言:“目前在AI領域,沒有比英偉達硬件更好的。
依靠著AI領域的飛速發展,也讓英偉達賺得盆滿缽滿,最近幾天的市值一度達到了 2.8 萬億美元,與市值第一的蘋果之間的差距已經越來越小,按老黃這么猛的勢頭發展下去,說不定未來還能超一波呢。
如果問你,未來的數字人會是什么樣子,你會怎么回答?
而黃仁勛給出了這樣一個回答,首先他播放了一段視頻,展示了計算機如何像真人一樣進行互動。比如,數字人可以通過手機攝像頭觀察周圍環境,然后做出判斷,比如問:“你是不是在錄制視頻或者布置場景呢?”
數字人的出現將會給客服、廣告和游戲行業帶來革命性的變化。舉個例子,如果你用手機掃描你的廚房,數字人就能變身為AI室內設計師,為你提供幾種設計方案,并幫你挑選家具;它還可以成為AI客服代表、數字醫療助手,或者AI品牌大使,引領營銷廣告的新趨勢。
對此黃仁勛表示,P 將成為非常重要的AI平臺,并發布4款新款 RTX AI PC。
英偉達在全球有 1 億臺 GeForce RTX AI PC 的用戶基礎,將通過 200 多款 RTX AI 筆記本電腦和 500 多款采用 AI 技術的應用和游戲來改變消費者的體驗。
這些AI PC到底有何魅力呢?咱們往下看就明白了。
接下來咱們再說說普通人能享受到的AI便利,那就不得不提游戲助手Project G-Assist了。
在所有技術更新中,GeForce AI助手Project G-Assist讓人印象最為深刻,你可以理解它是由 RTX 驅動的AI 助手,它的特長就是以終端的視角陪你玩游戲,將在游戲中扮演協同助理的角色,相當于多了一個AI陪你玩游戲。
放到實際應用場景里,Project G-Assist就像是一個智能的游戲助手,它能夠根據游戲的規則和玩家當前的進展來提供幫助。比如,在荒野求生的游戲中,它會提醒玩家攜帶合適的裝備,或者通過對話幫助玩家查找網絡上的攻略,讓游戲體驗更加流暢。
那么它是如何實現的呢?據了解,Project G-Assist是通過語音識別、文本分析、游戲畫面捕捉以及大型語言模型(LLM)的結合來實現的,因此它能夠理解玩家在游戲中的實時狀態,并且連接到一個龐大的游戲知識庫,為玩家提供下一步行動的建議。
由于它具備理解游戲上下文的能力,所以還能夠深入分析玩家的技能點和菜單欄的使用,引導玩家做出更明智的選擇。它甚至能夠連接到游戲的官方百科,提醒玩家在特定關卡或地點可能遺漏的任務或隱藏裝備。
除了提供游戲攻略,Project G-Assist還有一個強大的功能——優化游戲體驗。它可以根據玩家的PC配置自動調整游戲的畫質設置,以確保游戲運行流暢,以《賽博朋克2077》為例,玩家只需與Project G-Assist進行對話,它就能自動優化游戲設置,包括啟用GPU超頻和NVIDIA Reflex技術來減少系統延遲,讓玩家享受到更加流暢和沉浸的游戲體驗。
以為這就沒了?Project G-Assist可遠不止這么不簡單,它還能實時監控游戲的幀率、功耗和系統反應時間,然后給出優化建議。比如說,如果你用筆記本電腦玩游戲,而且還沒有插電源,Project G-Assist就會自動調整設置,保證游戲能以60幀每秒的速度流暢運行,同時還能讓筆記本的電池撐得更久。
除了提供游戲內的指導和優化,Project G-Assist還能幫助玩家開啟和利用顯示器的高級功能,比如HDR和G-SYNC,以此來顯著提升視覺體驗。
它還能向玩家解釋游戲設置中的一些專業術語,比如DLSS(深度學習超采樣)和DLAA(深度學習抗鋸齒),并協助玩家進行更細致的設置調整。
而且,NVIDIA的的野心還遠不止于此,官方正在計劃能否讓Project G-Assist在其他領域里也幫上忙。
比如在修圖、剪視頻或者做其他創意工作的時候,也能像游戲里一樣,給你提供一些智能的建議和幫助,讓用戶的工作和學習更加高效。
在演講上,黃仁勛還展示了一個非常酷炫的項目,那就是英偉達 Earth-2 數字孿生地球。
該“地球”主要用于天氣觀測,基于英偉達 CorrDiff 生成式 AI 模型技術,號稱融合了人工智能、物理模擬和觀測數據,能夠從今天的數據來預測未來世界的影響。
雖然聽起來就像是科幻小說里的情節,但英偉達正在將它變為現實。
英偉達透露,比起之前的Earth數字孿生地球版本,Earth-2在天氣預測方面有了質的飛躍。它的解析度從原來的25公里提升到了2公里,提高了整整12倍,這意味著它能夠提供更精確的天氣信息,同時據稱能夠提高 3000 倍能源效率。
英偉達還提到,Earth-2未來將具備超本地化的天氣預測能力,它能夠模擬建筑物周圍微小尺度的氣流變化。在氣象局的測試中,Earth-2甚至能夠以10米的精度預測臺風的登陸點,這在天氣預報領域是一個相當高的標準。
未來還可以幫助有關部門和公司精確預見天氣,防止極端天氣的影響。
順帶一提,演講會上還有個夢幻聯動環節!英偉達還宣布將用于模擬應用的NVIDIA Omniverse平臺引入蘋果Vision Pro。
面向工業數字孿生應用,英偉達將以API形式提供Omniverse Cloud。開發人員可借助該API將交互式工業數字孿生流傳輸到VR頭顯中。
開發者可以利用API,將Omniverse的核心功能輕松地嵌入到他們現有的數字孿生設計和自動化軟件中,或者整合到用于測試和驗證自主機器,比如機器人或自動駕駛汽車的仿真流程中。
黃仁勛認為,未來所有產品都會有一個數字孿生版本,Omniverse就是這樣一個平臺,它允許用戶創建并操作與現實世界物理屬性相匹配的數字孿生。
那么未來英偉達還要做什么呢?在黃仁勛看來,下一波 AI 浪潮是物理 AI,即理解物理定律的 AI。
在黃仁勛的構想中,下一個由機器人工廠內的機器人制造的高產量機器人產品可能是人形機器人,最容易適應世界的機器人也是人形機器人。
“機器人時代已經到來,AI的下一波浪潮已經到來,”站在各式各樣的機器人投影屏幕前,黃仁勛張開雙臂,宣告全新時代的揭幕,“由物理AI驅動的機器人技術將徹底改變行業。這不是未來,這正在發生。”
在英偉達的產品中,有多項內容與機器人有關,包括用于模擬應用的NVIDIA Omniverse平臺、Project GR00T人形機器人通用基礎模型、Jetson Thor機器人計算機、NVIDIA Isaac平臺等,比亞迪電子、西門子、泰瑞達等公司也正在將英偉達自主機器人技術集成到自家工廠中。
在演講會上,英偉達還發布了人形機器人通用基礎模型Project GR00T、基于Thor SoC的新型人形機器人計算機Jetson Thor。
GR00T驅動的機器人能理解自然語言,并通過觀察人類行為來模仿快速學習協調、靈活性和其它技能,以適應現實世界并與之互動。而Jetson Thor具有針對性能、功耗和尺寸優化的模塊化架構。該SoC包括一個帶有Transformer引擎的下一代Blackwell GPU,以運行GR00T等多模態生成式AI模型。
黃仁勛預言,總有一天,所有移動的東西都將是自主的,世界各地研究人員和公司都在開發由物理 AI 驅動的機器人," 機器人將遍布所有工廠。工廠將實現對機器人的統籌,這些機器人將制造新的機器人產品。"
有趣的是,人工智能的熱潮早已經不僅限于聊天機器人,現在人形機器人也成了熱門領域,英偉達并不是唯一一家在這一領域加大投入的大公司。
最近有消息稱,OpenAI已經重新啟動了之前暫停的機器人項目。據一位知情人士透露,OpenAI的新機器人團隊已經組建起來,并且已經秘密運作了大約兩個月。
不得不說,由黃仁勛引領的新一輪以AI為核心的產業革命已經開始,讓我們期待接下來他還能再卷起多大風浪吧!
輯:桃子 好困
LLM若想高速推理,現如今,連GPU都無法滿足了?
曾造出世界最大芯片公司Cerebras,剛剛發布了全球最快的AI推理架構——Cerebras Inference。
運行Llama3.1 8B時,它能以1800 token/s的速率吐出文字。
不論是總結文檔,還是代碼生成等任務,響應幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調版Llama3.1 8B推理速度為90 token/s,清晰可見每行文字。
而現在,直接從90 token/s躍升到1800 token/s,相當于從撥號上網邁入了帶寬時代。
左邊Cerebras Inference下模型的推理速度,只能用「瞬間」、「瘋狂」兩字形容。
這是什么概念?
比起英偉達GPU,Cerebras Inference的推理速度快20倍,還要比專用Groq芯片還要快2.4倍。
另外,對于70B參數的Llama3.1,可達到450 token/s及時響應。
值得一提的是,Cerebras并沒有因為提高LLM的速度,而損失其精度。
測試中,使用的Llama3.1模型皆是采用了Meta原始16位權重,以便確保響應高精度。
最關鍵的是,價格還實惠。
根據官方API定價,Llama 3.1 8B每百萬token僅需10美分,Llama 3 70B每百萬token僅需60美分。
如此之高的性價比,更是打破了業界紀錄——
不僅遠超之前的保持者Groq,而且和其他平臺相比,甚至是隔「坐標軸」相望了。
Artificial Analysis
正是因為Cerebras Inference背后,是由自研的第三代芯片Wafer Scale Engine助力,才得以1/5價格快速推理Llama3.1。
看到自家模型推理如此神速,LeCun、Pytorch之父紛紛動手轉發起來。
還有網友看后表示,我想要!
推理很慢,英偉達GPU也不中用?
為什么LLM的響應,就像撥號上網加載網頁一樣,一個字一個字慢慢地吐出?
關鍵原因所在,大模型自身的順序特性,以及需要大量的GPU內存和帶寬。
由于GPU的內存帶寬限制,如今推理速度為每秒幾十個token,而不是數千個。
更進一步說,大模型每個生成的單詞,都必須通過整個模型進行處理,即所有參數必須從內存投入到計算中。
而每生成一個單詞,就需要一次處理,以此循環往復。
也就是,生成100個單詞需要100次處理,因為「下一詞」的預測,皆需要依賴前一個單詞,而且這個過程無法并行。
那么,想要每秒生成100個單詞,就需要所有模型參數,每秒投入計算100次。
由此,這對GPU內存帶寬提出了高要求。
以社區流行的Llama3.1-70B模型為例。
模型有700億參數,每個參數是16位,需要2字節的存儲,那整個模型便需要140GB的內存。
想要模型輸出一個token,那700億參數必須從內存,移動到計算核心,以執行前向推理計算。
由于GPU只有約200MB的片上內存,模型無法存儲在芯片。
因此,每次生成的token輸出時,需將整個占用140GB內存的模型,完整傳輸到計算中。
再細算下來,為了實現10 token/s,則需要10*140=1.4 TB/s的內存帶寬。
那么,一個H100有3.3 TB/s的內存帶寬,足以支持這種緩慢的推理。
而若要實現即時推理,需要達到1000 token/s或140 TB/s,這遠遠超過任何GPU服務器/系統內存帶寬。
或許,你想到了一種「暴力」解決方案,將多個GPU串聯搭建DGX系統。
這完全是大錯特錯,更多的處理器只會增加系統的吞吐量(給出更長響應),并不會加速單個查詢的響應時間。
自研世界最大芯片,打破推理想象
那么,Cerebras如何打破這一困局呢?
一直以來,這家公司就致力于打造世界上最大芯片,希望將整個模型存儲在一個晶片上,以此來解決內存帶寬瓶頸。
憑借獨特的晶圓設計,WSE-3單個芯片上便集成了44GB SRAM,具備21 PB/s的內存帶寬。
單個芯片擁有如此大內存,便消除了對外部內存的需求,以及將外部內存連接到計算的慢速通道。
總的來說,WSE-3的總內存帶寬為21PB/s,是H100的7000倍。
它是唯一一款同時具有PB級計算和PB級內存帶寬的AI芯片,使其成為高速推理的近乎理想設計。
Cerebras推理不僅速度超快,而且吞吐量巨大。
與小型AI芯片相比,芯片上內存多了約200倍,支持從1-100的批大小,使其在大規模部署時,具有極高的成本效益。
正是有了如此強大的芯片,Cerebras Inference的快速推理得以實現。
它的出現,是為了實現數十億到萬億參數模型的推理。
如果模型參數超過單個晶圓的內存容量時,研究人員將在「層邊界」將其拆分,并映射到多個CS-3系統上。
20B模型適合單個CS-3,而70B模型則至少需要4個這樣的系統。
官方表示,未來幾周,將會測試更大參數版本的模型,比如Llama3-405B、Mistral Large。
16位精度,不做取舍
推理速率高,并非在模型權重上,做了取舍。
業界中,一些公司試圖將模型權重精度,從16位減少到8位,來克服內存帶寬的瓶頸。
這樣方法,通常會造成模型精度損失,也就是響應結果的準確性、可靠性不如以前。
Cerebras Inference之所以強就強在了,速率和原始權重,皆要顧及。
正如開篇所述,他們采用了原始16位權重運行了Llama3.1 8B和70B。
通過評估,16位模型準確率比8位模型,高出多達5%。尤其是在,多輪對話、數學和推理任務中表現更好。
最優性價比,百萬token免費送
目前,Cerebras Inference可通過聊天平臺,以及API訪問,任何一個人可隨時體驗。
體驗傳送門:https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
基于熟悉的OpenAI Chat Completions格式,開發者只需更換API密鑰即可集成強大的推理功能。
Cerebras Inference API提供最佳的性能、速度、精度和成本組合。
它是唯一能即時運行Llama3.1-70B的方案,可實現450 token/s,同樣使用的是原始16位模型權重。
在此,Cerebras送上大福利,每天為開發者們提供100萬個免費token。對于大規模部署,其定價只是H100云的一小部分。
首次推出時,Cerebras提供了Llama3.1 8B和70B模型,而且有能力每天為開發者和企業,提供數千億token。
接下來幾周,他們將增加對更大模型的支持,如Llama3 405B、Mistral Large 2。
有開發者問道,你們提供的rpm(每分鐘請求次數)和tpm(每分鐘處理token數)是多少?
Cerebras提供了一張針對Llama 3.1 8B和70B模型完整的請求/token處理數的圖。
快速推理,不只為速度
最后,讓我們來聊聊,為什么快速推理非常重要?
通常,LLM會即刻輸出自己的全部想法,而不考慮最佳答案。而諸如scaffolding(腳手架)這類的新技術,則如同一個深思熟慮的智能體,會在作出決定前探索不同的可能解決方案。
這種「先思考后發言」的方式在代碼生成等嚴苛任務中,可以帶來超過10倍的性能提升,從根本上提升了AI模型的智能,且無需額外訓練。
但這些技術在運行時,需要多達100倍的token。
因此可見,如果我們能大幅縮短處理時間,那么就可以實現更為復雜的AI工作流程,進而實時增強LLM的智能。
速度爆表,但上下文只有8K
雖然在價格和延遲上,Cerebras都不是最低的。
但極致的速度,確實為Cerebras帶來了極致的速度-價格和速度-延遲比。
不過,值得注意的是,在Cerebras上跑的Llama 3.1,上下文只有8k……
相比之下,其他平臺都是128K。
具體數據如下:
參考資料:
https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
https://x.com/CerebrasSystems/status/1828464491677524311
https://artificialanalysis.ai/models/llama-3-1-instruct-70b/providers