Ixiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
李堉暉:北京大學智能學院碩士,受張弘揚老師和張超老師指導,研究方向為大模型加速和對齊,正在尋找25屆工作機會
魏芳蕓:微軟亞研院研究員,研究方向為具身智能、圖像生成和AI agents
張超:北京大學智能學院研究員,研究方向為計算機視覺和機器學習
張弘揚:滑鐵盧大學計算機學院、向量研究院助理教授,研究方向為LLM加速和AI安全
自回歸解碼已經成為了大語言模型(LLMs)的事實標準,大語言模型每次前向計算需要訪問它全部的參數,但只能得到一個token,導致其生成昂貴且緩慢。
今日,一篇題為《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》的論文提出了動態草稿樹投機采樣,依據草稿模型的置信度動態調整草稿樹的結構,最高可以將大語言模型的推理速度提高5倍,同時不改變大語言模型的輸出分布,確保無損。
論文鏈接:https://arxiv.org/pdf/2406.16858
項目鏈接:https://github.com/SafeAILab/EAGLE
Demo鏈接:https://huggingface.co/spaces/yuhuili/EAGLE-2
EAGLE-2在多輪對話數據集MT-bench上的加速效果(上圖為貪婪生成,下圖為采樣生成):
使用EAGLE-2,2張RTX 3060(0)的推理速度可以超過A100(000)。
背景
投機采樣使用一個小的模型快速生成草稿,原始的大語言模型可以通過一次前向計算驗證草稿的正確性,將正確的草稿作為輸出,從而一次生成多個token,并確保無損。EAGLE是投機采樣的一種改進。它在更有規律的特征層面而不是token層面進行自回歸,同時輸入采樣結果(超前一個時間步的token)消除了不確定性,明顯提升了草稿模型的準確率。
到目前為止,EAGLE在第三方測試Spec-Bench(https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md)中排名第一。
思路
EAGLE和Medusa等方法使用靜態的草稿樹,隱式地假設草稿token的接受率和上下文無關,下面是一個簡單的例子
上文是“10+2”時,下一個token難以預測,EAGLE在這個位置添加兩個候選token以增加草稿命中率,“10+2=”和“10+2+”有一個正確即可。當上文是“10+2=”時,下一個token明顯是“1”,但是EAGLE使用靜態的草稿結構,仍然添加兩個候選“1”和“3”,“10+2=3”不可能通過大語言模型的檢查,存在浪費。EAGLE-2旨在解決這一問題,如下圖所示,當上文是“10+2=”時,EAGLE-2只增加一個候選token“1”,將節約出的token用于讓草稿樹更深,這樣“10+2=12”通過大語言模型的檢查,EAGLE-2可以一次生成更多的token。
EAGLE-2的作者們在Alpaca數據集上進行了簡單的測試,下圖顯示了不同位置的草稿token的接受率,左圖中的P1-P6代表位置,與右圖的橫軸坐標對應。實驗結果顯示,在相同的位置上的草稿token的接受率也有較大的差異,這說明了使用動態草稿樹可能取得比靜態草稿樹更好的效果。
上述例子中,EAGLE-2根據預測草稿token的難易程度決定草稿樹的結構,精確計算難易程度(接受率)需要原始大語言模型的計算結果,這違背了投機采樣減少對原始大語言模型訪問的初衷。幸運的是,EAGLE的草稿模型的置信度與接受率(難易程度)高度正相關。下圖顯示了草稿模型不同置信度區間的草稿token的平均接受率,紅色虛線連接(0,0)和(1,1)。由此可見,草稿模型的置信度可以作為接受率的有效近似。
方法
EAGLE-2包括兩個階段,擴展和重排,擴展階段加深加大草稿樹,重排階段修剪草稿樹,丟棄部分節點(token)。
為了保證無損,一個草稿token被接受的前提是它的祖先節點都被接受,所以EAGLE-2將一個節點的價值定義為它和它祖先的接受率的乘積,用置信度的乘積來近似。
在擴展階段,EAGLE-2選擇草稿樹最后一層價值最高的m個節點(token)進行擴展。這些token被送入草稿模型,然后將草稿模型的輸出作為子節點連接到輸入節點,加深加大草稿樹。在重排階段,EAGLE-2按照價值對整棵草稿樹進行重排序,保留前n個節點(token)。草稿token的置信度在0-1之間,兩個節點價值相同時優先保留淺層節點,因此重排后保留的草稿樹一定是連通的,保證了語義上的連貫性。重排后草稿樹變小,降低了原始大語言模型驗證的計算量。為了保證計算結果的正確性,還需要調整attention mask,確保每一個token只能看到它的祖先節點,不受其他分支的影響。下面是一個簡單的例子。
擴展(Expand)階段的黃色框表示被選中進行擴展的節點,綠色框為以這些節點為輸入時草稿模型的預測。重排(Rerank)階段的藍色框表示被保留的節點,之后它們被展平成一維作為原始大語言模型的輸入。EAGLE-2根據樹的結構調整attention mask,比如,”a”只能看到它的祖先“It”和“is”,看不到另一個分支的“has”。EAGLE-2也同時調整位置編碼,確保和標準自回歸解碼的一致性。
實驗
EAGLE-2在多輪對話、代碼、數學推理、指令遵循、問答、總結六項任務上分別使用MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM、Natural Questions數據集進行了實驗,與6種先進的投機采樣方法(SpS、PLD、Medusa、Lookahead、Hydra、EAGLE)進行了比較。
表格中的Speedup為加速比,τ 為平均接受長度,也就是原始大語言模型每次前向計算能生成的token數。EAGLE-2每次前向計算能生成大約4-5個token,而自回歸解碼每次生成1個token,因此EAGLE-2明顯加速了大語言模型的生成,加速比為2.5x-5x。加速比和接受長度在代碼生成任務(Humaneval數據集)上最高,這是因為代碼中存在大量確定性的模板,草稿更容易命中。在所有任務和大語言模型上,EAGLE-2的加速比和平均接受長度都是最高的,明顯優于其他方法。
應用
EAGLE-2也在工業界得到應用,集成至Intel/intel-extension-for-transformers等。
VIDIA 在SIGGRAPH大會上重點展示了最新NVIDIARTX 賦能的工具和應用程序,該大會是圖形與AI 交叉領域的年度大展。
這些AI科技提供了先進的光線追蹤和渲染技術,可在游戲、虛擬現實、動畫和影視級特效中實現超寫實的圖形和身臨其境的體驗。RTXAI 個人電腦和工作站正在助力推動未來的交互式數字媒體、內容創作、生產力以及開發工作。
1 ACE 的AI 魔法
在SIGGRAPH爐邊談話中,NVIDIA創始人兼首席執行官黃仁勛介紹了 “James”—— 一款基于NVIDIANIM微服務構建的交互式數字人,該角色展現了AI驅動用戶交互的潛力。
James 是一個使用NVIDIAACE技術開發的客戶服務工作流虛擬助手,可以通過表情、幽默和上下文準確的響應與人類溝通。很快用戶將可以通過訪問ai.nvidia.com,與James 進行實時互動。
NVIDIA還介紹了用于遠程呈現的NVIDIAMaxine AI 平臺的最新進展,以及正在使用NVIDIA ACE 技術的公司。NVIDIAACE 是一套通過生成式AI讓數字人栩栩如生的技術。這些技術通過 AI模型實現數字人類的開發,涵蓋語音和翻譯、視覺、智能、逼真的動畫和行為,以及栩栩如生的外觀。
Maxine擁有兩項可增強遠程呈現場景下數字人體驗的AI 技術:Maxine 3D 和Audio2Face-2D。
開發者可以利用Maxine 和ACE技術,為用戶打造更具吸引力、更自然的數字界面交互體驗,適用于客戶服務、游戲和其他互動場景。這些先進技術將大大提升用戶體驗,讓數字互動更加生動有趣,仿佛與真人對話一般。
借助先進的AI 技術,NVIDIAACE 技術允許開發者設計能夠實時響應用戶的虛擬形象,具備逼真的動畫、語音和情感表現。這些虛擬形象將為用戶帶來更加真實和互動的體驗。RTXGPU 可提供必要的計算能力和圖形保真度,以令人驚艷的細節和流暢性渲染ACE 虛擬形象。
隨著技術的不斷進步和日益廣泛的采用,ACE正在為構建虛擬世界樹立新的標桿并激發了各行各業的創新。開發人員利用基于RTX GPU 的ACE技術,可以構建更加身臨其境的應用程序和先進的、基于AI 的交互式數字媒體體驗。
2 RTX更新為創作者帶來AI 藝術
NVIDIAGeForce RTX 個人電腦和NVIDIA RTX 工作站正通過GPU 加速獲得升級,為用戶提供增強的AI 內容創作體驗。
對于視頻編輯人員來說,RTXVideo HDR 現在可通過萬興科技旗下視頻創意軟件萬興喵影和 DaVinciResolve使用。有了這項技術,用戶可以將任何內容轉化為高動態范圍視頻,在明暗場景中都能呈現更豐富的色彩和更多的細節,因此是游戲、旅行或活動視頻制作的理想選擇。將RTX Video HDR 與RTX視頻超分辨率相結合,通過消除編碼偽影和增強細節,可進一步提高視覺質量。
視頻地址:https://images.nvidia.cn/cn/youtube-replicates/I2ZUGB8JZKc.mp4
RTX VideoHDR 需要將RTX GPU 連接到兼容HDR10 的顯示器或電視上。使用搭載RTX GPU的個人電腦用戶,可以將文件導入到萬興喵影桌面端應用程序,繼續通過本地RTX 加速進行編輯,并在GeForceRTX 4070 Ti 或更強GPU上借助雙編碼器使導出速度提高一倍。進一步了解萬興喵影經AI 賦能后的功能。流行媒體播放器VLC 在6月新增了對RTX 視頻超分辨率和RTX Video HDR 的支持,增加了AI 增強視頻播放功能。
如需了解更多信息,請參閱本博客中關于RTX賦能的視頻編輯部分以及 RTX視頻常見問題解答。進一步了解萬興喵影經AI 賦能后的功能。
此外,3D藝術家獲得了更多簡化和增強工作流的AI 應用和工具,包括Replikant、Adobe、Topaz和 GettyImages 等。
Replikant作為人工智能輔助3D 動畫平臺,目前正在集成一項ACE 技術NVIDIAAudio2Face,以改進唇部同步和面部動畫。通過利用NVIDIA 加速生成模型,用戶可以享受到由RTX 和NVIDIADLSS 技術增強的實時視覺效果。Replikant現已登陸Steam 平臺。
AdobeSubstance 3D Modeler 增添了基于形狀檢索資產庫的功能,這一由AI 賦能的功能旨在根據即有3D形狀來簡化復雜形狀的替換和增強。這項新功能大大加快了原型設計的速度,并增強了設計工作流。
AdobeSubstance 3D 中的新AI 功能集成了先進的生成式AI 功能,增強了其紋理和材質創建工具。Adobe首次將其Firefly 生成式AI 功能集成到Substance 3D Sampler 和Stager中,使工業設計師、游戲開發人員和視覺效果專業人員的三維工作流更加無縫和高效。
通過文本生成紋理和提示詞描述等功能,Substance3D 用戶可以生成逼真或風格化的紋理。這些紋理之后便可直接應用于3D模型。新的文本生成紋理和生成式背景功能顯著加快了傳統上耗時且復雜的3D 紋理繪制和合成的速度。
在NVIDIA RTX Tensor核心的支持下,Substance3D 能夠大大加快計算速度,并可實現更直觀、更具創造性的設計流程。這項開發以 Adobe的創新為基礎,在Substance 3D 工作流中借助Firefly 進行了Creative Cloud 升級。
Topaz AI引入了NVIDIATensorRT 加速多GPU 工作流,使得多GPU 并行處理成為可能,大幅提升渲染速度——使用兩塊GPU 比單塊GPU 系統快達2 倍,并且隨著GPU 數量的增加,速度還會進一步提升。
GettyImages 更新了其Generative AI by iStock服務,增加了新功能以改進圖像生成和質量。在NVIDIA Edify模型的加持下,其最新的增強功能可使生成四張圖像的時間達到六秒左右,比前代模型的性能提高了一倍,速度處于行業領先水平。改進后的文本生成圖像(Text-2-Image)和圖像生成圖像(Image-2-Image)功能提供了更高質量的結果,并且更好地符合用戶的提示詞要求。
GenerativeAI by iStock 用戶現在還可以指定攝像頭設置,如焦距(窄、標準或寬)和景深(近或遠)等。通過改進的生成式AI 超分辨率技術,圖像質量得到了顯著提升。該技術使用AI創建新的像素,大幅提高分辨率,同時避免過度銳化圖像。
3 令人驚嘆的LLM AI
ChatRTX是一種將大語言模型(LLM)連接到用戶數據的技術演示,用于快速查詢筆記、文檔或圖片。其目前正在進行UI 改進,以提供更簡潔、更完美的體驗。
ChatRTX還是一個開源參考項目,向開發人員展示如何通過RTX 加速構建功能強大的本地檢索增強生成(RAG) 應用。
今天發布的最新版ChatRTX 采用了Electron + Material UI框架,使開發人員可以更輕松地添加他們自己的UI元素或擴展新功能。這次更新還包括一個新的架構,該架構不僅簡化了不同UI 的集成,還簡化了在ChatRTX后端應用程序編程接口基礎上構建新聊天和檢索增強生成(RAG)應用的過程。
最終用戶可從ChatRTX網頁下載最新版本的ChatRTX。開發人員可在ChatRTXGitHub 代碼庫中找到新版本的源代碼。
MetaLlama 3.1-8B 模型現已針對 NVIDIAGeForce RTX PC 和NVIDIA RTX 工作站的推理進行了優化。這些模型由 NVIDIATensorRT-LLM(一款可加速LLM 推理性能的開源軟件)提供原生支持。
4 戴爾的AI 聊天機器人:利用RTX Rocket Fuel
戴爾展示了企業如何利用NVIDIA AI Workbench 和基于Llama 3 的NVIDIA NIM 微服務,通過優化的檢索增強生成(RAG)聊天機器人來推動AI 開發。借助NVIDIAAI Workbench Hybrid RAG項目,戴爾展示了如何利用聊天機器人與企業數據的本地向量數據庫的進行對話,并以下列三種方式之一進行推理:
了解更多關于AIWorkbench Hybrid RAG 項目的信息。SIGGRAPH與會者可在戴爾科技的301展位親身體驗這項技術。
5 HP AIStudio:利用CUDA-X 和Galileo 加速創新
惠普在SIGGRAPH 大會上展示了集中式數據科學平臺Z by HP AI Studio。AIStudio 于2023年10月發布,目前借助最新的NVIDIACUDA-X 資源庫以及惠普最近與生成式AI 信任層公司Galileo 的合作得到了增強。主要優勢包括:
AI Studio旨在提高生產力和簡化AI開發,讓數據科學團隊專注于創新。敬請蒞臨惠普的501展臺,了解AI Studio 如何利用RAPIDScuDF 來增強數據預處理,加速AI 工作流。申請提前訪問AIStudio。
6 StableDiffusion 的RTX 速度大增
StableDiffusion 3 是Stability AI 的最新模型,經TensorRT 優化后速度提高了60%。
視頻地址:https://images.nvidia.cn/cn/youtube-replicates/KA8kOsooDcw.mp4
一項針對Stable Diffusion 3 進行性能優化的NIM 微服務目前可通過訪問ai.nvidia.com進行預覽。
現在還來得及與NVIDIA一道參加SIGGRAPH大會,了解RTX AI如何改變內容創作和視覺媒體體驗的未來。此次大會將持續到8 月1 日。
生成式AI正在給各式各樣的圖形和交互體驗帶來變革。請訂閱《解碼AI》時事通訊,我們每周都會將新鮮資訊直接投遞到您的收件箱。
(8889168)
馳的人工智能
需要“飛馳的算力”
一邊是越來越復雜的計算問題
另一邊是增長乏力的算力供給
傳統計算機已經不夠用了
再者
超級計算機是“吞電巨獸”
目前世界上最大的超級計算機耗電量
相當于一個小型火力發電站的發電量
如何節省更多能源?
如果計算機能擁有“超能力”
就像孫悟空擁有“分身術”一樣
一個“悟空”算不過來
拔一根毛發吹一下
無數個“悟空”一起計算
“算力焦慮”便可迎刃而解
夢想照進現實
量子計算機誕生了
一個“悟空”來算
還是無數個“悟空”一起算
就是經典計算與量子計算的區別
這是超導量子計算機的內部線路。新華社發(受訪者供圖)
這兩者的速度究竟能差出多少?
“1994年,破譯一串155位的密碼
需要當時最先進的經典計算機
持續計算長達20年
而有了量子計算機
破譯這一長度的密碼僅需0.3秒”
北京量子信息科學研究院科研副院長、清華大學教授龍桂魯說
這是包含156個比特可調耦合架構的超導量子芯片。新華社發(受訪者供圖)
量子計算機的最大亮點
就是加速計算
2024中關村論壇年會開幕式上
“夸父”(Quafu)大規模量子云算力集群
一經發布,驚艷四座
它的總可用量子比特數達到590個
以免費形式向全球用戶開放
更多的量子比特意味著什么?
隨著可操縱的量子數量增多
計算能力呈指數級增長
比特數越大
量子計算機算得越快
就在前幾天
北京量子科技企業玻色量子
在發布會上做了一個實驗
一名男子手持一瓶550ml礦泉水從胸前松手
讓水自由落地落到地板上
全程只有540毫秒
幾乎就是一眨眼的工夫
與此同時
一臺550計算量子比特的相干光量子計算機
完成一次巨量規模計算僅用了5.4毫秒
這一耗時僅為一眨眼工夫的1%
在這5.4毫秒的時間里
量子計算機完成的計算量高達“2的550次方”
4月25日,玻色量子自主研發新一代550計算量子比特相干光量子計算機——“天工量子大腦550W”亮相中關村論壇。新華社發(受訪者供圖)
目前
量子計算已從實驗室走向應用
在密碼破譯、大數據優化、金融分析、
天氣預報、材料設計等領域大放異彩
但它的實用化是一場接力跑
還有許多問題有待攻克
量子計算
期待你未來跑得又穩又快
記者:張漫子 馮筱晴
來源: 新華社