操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    們還沒有看到能與 ChatGPT 相匹敵的 AI 大模型,但在算力基礎(chǔ)上,領(lǐng)先的可能并不是微軟和 OpenAI。

    本周二,谷歌公布了其訓(xùn)練語言大模型的超級計算機的細節(jié),基于 TPU 的超算系統(tǒng)已經(jīng)可以比英偉達的同類更加快速、節(jié)能。

    谷歌張量處理器(tensor processing unit,TPU)是該公司為機器學(xué)習(xí)定制的專用芯片(ASIC),第一代發(fā)布于 2016 年,成為了 AlphaGo 背后的算力。與 GPU 相比,TPU采用低精度計算,在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運算速度。同時,TPU 使用了脈動陣列等設(shè)計來優(yōu)化矩陣乘法與卷積運算。

    當前,谷歌 90% 以上的人工智能訓(xùn)練工作都在使用這些芯片,TPU 支撐了包括搜索的谷歌主要業(yè)務(wù)。作為圖靈獎得主、計算機架構(gòu)巨擘,大衛(wèi)?帕特森(David Patterson)在 2016 年從 UC Berkeley 退休后,以杰出工程師的身份加入了谷歌大腦團隊,為幾代 TPU 的研發(fā)做出了卓越貢獻。

    如今 TPU 已經(jīng)發(fā)展到了第四代,谷歌本周二由 Norman Jouppi、大衛(wèi)?帕特森等人發(fā)表的論文《 TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 》詳細介紹了自研的光通信器件是如何將 4000 多塊芯片并聯(lián)成為超級計算機,以提升整體效率的。

    TPU v4 的性能比 TPU v3 高 2.1 倍,性能功耗比提高 2.7 倍。基于 TPU v4 的超級計算機擁有 4096 塊芯片,整體速度提高了約 10 倍。對于類似大小的系統(tǒng),谷歌能做到比 Graphcore IPU Bow 快 4.3-4.5 倍,比 Nvidia A100 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。

    除了芯片本身的算力,芯片間互聯(lián)已成為構(gòu)建 AI 超算的公司之間競爭的關(guān)鍵點,最近一段時間,谷歌的 Bard、OpenAI 的 ChatGPT 這樣的大語言模型(LLM)規(guī)模正在爆炸式增長,算力已經(jīng)成為明顯的瓶頸。

    由于大模型動輒千億的參數(shù)量,它們必須由數(shù)千塊芯片共同分擔(dān),并持續(xù)數(shù)周或更長時間進行訓(xùn)練。谷歌的 PaLM 模型 —— 其迄今為止最大的公開披露的語言模型 —— 在訓(xùn)練時被拆分到了兩個擁有 4000 塊 TPU 芯片的超級計算機上,用時 50 天。

    谷歌表示,通過光電路交換機(OCS),其超級計算機可以輕松地動態(tài)重新配置芯片之間的連接,有助于避免出現(xiàn)問題并實時調(diào)整以提高性能。

    下圖展示了 TPU v4 4×3 方式 6 個「面」的鏈接。每個面有 16 條鏈路,每個塊總共有 96 條光鏈路連接到 OCS 上。要提供 3D 環(huán)面的環(huán)繞鏈接,相對側(cè)的鏈接必須連接到相同的 OCS。因此,每個 4×3 塊 TPU 連接到 6 × 16 ÷ 2=48 個 OCS 上。Palomar OCS 為 136×136(128 個端口加上 8 個用于鏈路測試和修復(fù)的備用端口),因此 48 個 OCS 連接來自 64 個 4×3 塊(每個 64 個芯片)的 48 對電纜,總共并聯(lián) 4096 個 TPU v4 芯片。

    根據(jù)這樣的排布,TPU v4(中間的 ASIC 加上 4 個 HBM 堆棧)和帶有 4 個液冷封裝的印刷電路板 (PCB)。該板的前面板有 4 個頂部 PCIe 連接器和 16 個底部 OSFP 連接器,用于托盤間 ICI 鏈接。

    隨后,八個 64 芯片機架構(gòu)成一臺 4096 芯片超算。

    與超級計算機一樣,工作負載由不同規(guī)模的算力承擔(dān),稱為切片:64 芯片、128 芯片、256 芯片等。下圖顯示了當主機可用性從 99.0% 到 99.9% 不等有,及沒有 OCS 時切片大小的「有效輸出」。如果沒有 OCS,主機可用性必須達到 99.9% 才能提供合理的切片吞吐量。對于大多數(shù)切片大小,OCS 也有 99.0% 和 99.5% 的良好輸出。

    與 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快,成本不到系統(tǒng)成本的 5%,功率不到系統(tǒng)功率的 3%。每個 TPU v4 都包含 SparseCores 數(shù)據(jù)流處理器,可將依賴嵌入的模型加速 5 至 7 倍,但僅使用 5% 的裸片面積和功耗。

    「這種切換機制使得繞過故障組件變得容易,」谷歌研究員 Norm Jouppi 和谷歌杰出工程師大衛(wèi)?帕特森在一篇關(guān)于該系統(tǒng)的博客文章中寫道。「這種靈活性甚至允許我們改變超級計算機互連的拓撲結(jié)構(gòu),以加速機器學(xué)習(xí)模型的性能。」

    在新論文上,谷歌著重介紹了稀疏核(SparseCore,SC)的設(shè)計。在大模型的訓(xùn)練階段,embedding 可以放在 TensorCore 或超級計算機的主機 CPU 上處理。TensorCore 具有寬 VPU 和矩陣單元,并針對密集操作進行了優(yōu)化。由于小的聚集 / 分散內(nèi)存訪問和可變長度數(shù)據(jù)交換,在 TensorCore 上放置嵌入其實并不是最佳選擇。在超級計算機的主機 CPU 上放置嵌入會在 CPU DRAM 接口上引發(fā)阿姆達爾定律瓶頸,并通過 4:1 TPU v4 與 CPU 主機比率放大。數(shù)據(jù)中心網(wǎng)絡(luò)的尾部延遲和帶寬限制將進一步限制訓(xùn)練系統(tǒng)。

    對此,谷歌認為可以使用 TPU 超算的總 HBM 容量優(yōu)化性能,加入專用 ICI 網(wǎng)絡(luò),并提供快速收集 / 分散內(nèi)存訪問支持。這導(dǎo)致了 SparseCore 的協(xié)同設(shè)計。

    SC 是一種用于嵌入訓(xùn)練的特定領(lǐng)域架構(gòu),從 TPU v2 開始,后來在 TPU v3 和 TPU v4 中得到改進。SC 相對劃算,只有芯片面積的約 5% 和功率的 5% 左右。SC 結(jié)合超算規(guī)模的 HBM 和 ICI 來創(chuàng)建一個平坦的、全局可尋址的內(nèi)存空間(TPU v4 中為 128 TiB)。與密集訓(xùn)練中大參數(shù)張量的全部歸約相比,較小嵌入向量的全部傳輸使用 HBM 和 ICI 以及更細粒度的分散 / 聚集訪問模式。

    作為獨立的核心,SC 允許跨密集計算、SC 和 ICI 通信進行并行化。下圖顯示了 SC 框圖,谷歌將其視為「數(shù)據(jù)流」架構(gòu)(dataflow),因為數(shù)據(jù)從內(nèi)存流向各種直接連接的專用計算單元。

    最通用的 SC 單元是 16 個計算塊(深藍色框)。每個 tile 都有一個關(guān)聯(lián)的 HBM 通道,并支持多個未完成的內(nèi)存訪問。每個 tile 都有一個 Fetch Unit、一個可編程的 8-wide SIMD Vector Processing Unit 和一個 Flush Unit。獲取單元將 HBM 中的激活和參數(shù)讀取到 2.5 MiB 稀疏向量內(nèi)存 (Spmem) 的圖塊切片中。scVPU 使用與 TC 的 VPU 相同的 ALU。Flush Unit 在向后傳遞期間將更新的參數(shù)寫入 HBM。此外,五個跨通道單元(金色框)執(zhí)行特定的嵌入操作,正如它們的名稱所解釋的那樣。

    與 TPU v1 一樣,這些單元執(zhí)行類似 CISC 的指令并對可變長度輸入進行操作,其中每條指令的運行時間都取決于數(shù)據(jù)。

    在特定芯片數(shù)量下,TPU v3/v4 對分帶寬比高 2-4 倍,嵌入速度可以提高 1.1-2.0 倍。

    下圖展示了谷歌自用的推薦模型(DLRM0)在不同芯片上的效率。TPU v3 比 CPU 快 9.8 倍。TPU v4 比 TPU v3 高 3.1 倍,比 CPU 高 30.1 倍。

    谷歌探索了 TPU v4 超算用于 GPT-3 大語言模型時的性能,展示了預(yù)訓(xùn)練階段專家設(shè)計的 1.2 倍改進。

    雖然谷歌直到現(xiàn)在才公布有關(guān)其超級計算機的詳細信息,但自 2020 年以來,基于 TPU 的 AI 超算一直在位于俄克拉荷馬州的數(shù)據(jù)中心發(fā)揮作用。谷歌表示,Midjourney 一直在使用該系統(tǒng)訓(xùn)練其模型,最近一段時間,后者已經(jīng)成為 AI 畫圖領(lǐng)域最熱門的平臺。

    谷歌在論文中表示,對于同等大小的系統(tǒng),其芯片比基于英偉達 A100 芯片的系統(tǒng)快 1.7 倍,能效高 1.9 倍,后者與第四代 TPU 同時上市,并被用于 GPT-4 的訓(xùn)練。

    對此,英偉達發(fā)言人拒絕置評。

    當前英偉達的 AI 芯片已經(jīng)進入 Hopper 架構(gòu)的時代。谷歌表示,未對第四代 TPU 與英偉達目前的旗艦 H100 芯片進行比較,因為 H100 在谷歌芯片之后上市,并且采用了更先進的制程。

    但同樣在此,谷歌暗示了下一代 TPU 的計劃,其沒有提供更多細節(jié)。Jouppi 告訴路透社,谷歌擁有開發(fā)「未來芯片的健康管道」。

    TPU v4 比當代 DSA 芯片速度更快、功耗更低,如果考慮到互連技術(shù),功率邊緣可能會更大。通過使用具有 3D 環(huán)面拓撲的 3K TPU v4 切片,與 TPU v3 相比,谷歌的超算也能讓 LLM 的訓(xùn)練時間大大減少。

    性能、可擴展性和可用性使 TPU v4 超級計算機成為 LaMDA、MUM 和 PaLM 等大型語言模型 (LLM) 的主要算力。這些功能使 5400 億參數(shù)的 PaLM 模型在 TPU v4 超算上進行訓(xùn)練時,能夠在 50 天內(nèi)維持 57.8% 的峰值硬件浮點性能。

    谷歌表示,其已經(jīng)部署了數(shù)十臺 TPU v4 超級計算機,供內(nèi)部使用和外部通過谷歌云使用。

    本文作者:澤南,來源:機器之心,原文標題:《谷歌TPU超算,大模型性能超英偉達,已部署數(shù)十臺:圖靈獎得主新作》

    本文來自華爾街見聞,歡迎下載APP查看更多

    源:內(nèi)容來自半導(dǎo)體行業(yè)觀察綜合,謝謝。

    Google 今天分享了有關(guān)其TPU芯片的新版本的早期細節(jié),據(jù)介紹,該芯片用于運行人工智能工作負載,其性能是前一代的兩倍以上。

    Google的TPU(即Tensor處理器單元)是專門針對AI設(shè)計的專用集成電路。搜索巨頭今天詳細介紹的新的TPU模型是該芯片的第四次迭代。通過Google Cloud Platform,企業(yè)可以使用第三次和第二次迭代,這兩者也展示了出色的性能。

    谷歌表示,其第四代TPU的平均性能比其第三代TPU高出2.7倍。這家搜索巨頭通過在最近的MLPerf行業(yè)競賽中衡量他們訓(xùn)練五個流行的AI模型的速度來比較這些芯片。第四代TPU在運行Mask R-CNN模型時獲得了最強的效果,Mask R-CNN模型是用于自動駕駛等用例的圖像分割A(yù)I,其訓(xùn)練速度比Google的早期芯片快3.7倍。

    Google指出,他們在本次MLPerf訓(xùn)練回合中使用的超級計算機是Cloud TPU v3 Pod的四倍,后者在之前的比賽中創(chuàng)造了三項記錄。該系統(tǒng)包括4096個TPU v3芯片和數(shù)百個CPU主機,所有這些都通過超快速,超大規(guī)模的定制互連進行連接。該系統(tǒng)總共可提供430多個PFLOP峰值性能。

    性能的提高是設(shè)計重大變化的結(jié)果。谷歌工程師Naveen Kumar在博客中詳細介紹了該公司已大大提高了TPU的內(nèi)存帶寬,即芯片從內(nèi)存中獲取數(shù)據(jù)進行處理的速度,并提高了其執(zhí)行專門計算的能力。

    “Google的第四代TPU ASIC提供了TPU v3的矩陣乘法TFLOP的兩倍以上性能,” Kumar在帖子中詳細介紹。矩陣乘法是AI模型用來處理數(shù)據(jù)的一種數(shù)學(xué)運算,而TFLOP是每秒一萬億個浮點運算。相比之下,與新芯片進行比較的第三代TPU v3 每秒可管理420萬億次操作。

    Kumar寫道,客戶可以很快獲得有關(guān)新TPU的更多信息。鑒于該平臺上已有兩個上一代TPU可供租用,該芯片很有可能最終登陸Google Cloud。但是,客戶可能需要等待一會兒:ExtremeTech 報告說,第四代TPU在MLPerf競賽期間被列為研究類別,這意味著它將在至少六個月內(nèi)無法商用。

    新芯片的速度提升尤其引人注目,因為其性能優(yōu)于第三代的芯片在同一比賽中打破了多項記錄。谷歌使用了4,090個第三代TPU來構(gòu)建其所謂的世界上最快的AI培訓(xùn)超級計算機。該系統(tǒng)為MLPerf八個基準中的六個基準創(chuàng)造了新記錄,并在30秒內(nèi)訓(xùn)練了四個測試模型。

    *免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

    今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2386期內(nèi)容,歡迎關(guān)注。

    晶圓代工|藍牙|英偉達||IBM|5G|摩爾定律|射頻

    月 9 日消息,在谷歌 I/O 開發(fā)者大會上,谷歌宣布發(fā)布 TPU 3.0。

    谷歌首先演示了谷歌一系列的機器學(xué)習(xí)成果,包括 Gmail 系統(tǒng)可以自動給用戶推薦可能要打的字,在谷歌照片中,系統(tǒng)會根據(jù)照片建議用戶對照片驚醒相應(yīng)編輯,比如調(diào)高亮度、給黑白照片加色、將斜著拍攝的文件拉正等。谷歌表示,要想更好地實現(xiàn)這些功能,必須要有強大的計算能力的支持。于是便引出了 TPU 3.0。

    谷歌表示,TPU 3.0 的性能比去年發(fā)布的 TPU2.0 要強大 8 倍左右,可提供超過 100 千兆次的機器學(xué)習(xí)硬件加速能力。 為此,谷歌不得不在數(shù)據(jù)中心中添加液態(tài)冷卻裝置,用于散熱。

    據(jù)了解,谷歌在 2016 年首次宣布了 TPU 計劃。 TPU 被作為一種特定目的芯片而專為機器學(xué)習(xí)設(shè)計,其因幫助 AlphaGo 打敗李世石而名聲大噪,隨后,谷歌還將這一芯片用在了其服務(wù)的方方面面,比如搜索、翻譯、相冊等軟件背后的機器學(xué)習(xí)模型中。

    去年 5 月,谷歌又宣布第二代的 TPU 系統(tǒng)已經(jīng)全面投入使用,并且已經(jīng)部署在了 Google Compute Engine 平臺上,據(jù)了解,TPU2.0 具有四個芯片,每秒可處理 180 萬億次浮點運算。同時,谷歌還表示找到了一種方法,使用新的計算機網(wǎng)絡(luò)將 64 個 TPU 組合到一起,升級為所謂的 TPU Pods,可提供大約 11500 萬億次浮點運算能力。

    據(jù)了解,目前機器學(xué)習(xí)主要都運用 GPU 來做模型的訓(xùn)練,但由于 GPU 并非專門為機器學(xué)習(xí)而設(shè)計,所以市面上已經(jīng)有越來越多的企業(yè)開始研發(fā)機器學(xué)習(xí)專門的芯片產(chǎn)品,而谷歌的 TPU 便是其中的佼佼者,TPU 3.0 的發(fā)布,對 GPU 巨頭英偉達而言,或許是一件“狼來了”的故事。

    另外,對于 TPU 3.0 谷歌在 I/O 開發(fā)者大會上并沒有更加詳細的介紹,不過,外界認為其應(yīng)該與 TPU 2.0 一樣,都將通過云服務(wù)的形式對外賦能 。

    本文來自動點科技,創(chuàng)業(yè)家系授權(quán)發(fā)布,略經(jīng)編輯修改,版權(quán)歸作者所有,內(nèi)容僅代表作者獨立觀點。[ 下載創(chuàng)業(yè)家APP,讀懂中國最賺錢的7000種生意 ]

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有