1月14日消息,英偉達(Nvidia)于當地時間13日上午在 “Supercomputing 23”會議上正式發布了全新的H200 GPU,以及更新后的GH200 產品線。
其中,H200依然是建立在現有的 Hopper H100 架構之上,但增加了更多高帶寬內存(HBM3e),從而更好地處理開發和實施人工智能所需的大型數據集,使得運行大模型的綜合性能相比前代H100提升了60%到90%。而更新后的GH200,也將為下一代 AI 超級計算機提供動力。2024 年將會有超過 200 exaflops 的 AI 計算能力上線。
H200:HBM容量提升76%,大模型性能提升90%
具體來說,全新的H200提供了總共高達141GB 的 HBM3e 內存,有效運行速度約為 6.25 Gbps,六個 HBM3e 堆棧中每個 GPU 的總帶寬為 4.8 TB/s。與上一代的H100(具有 80GB HBM3 和 3.35 TB/s 帶寬)相比,這是一個巨大的改進,HBM容量提升了超過76%。官方提供的數據顯示,在運行大模型時,H200相比H100將帶來60%(GPT3 175B)到90%(Llama 2 70B)的提升。
雖然H100 的某些配置確實提供了更多內存,例如 H100 NVL 將兩塊板配對,并提供總計 188GB 內存(每個 GPU 94GB),但即便是與 H100 SXM 變體相比,新的 H200 SXM 也提供了 76% 以上的內存容量和 43 % 更多帶寬。
需要指出的是,H200原始計算性能似乎沒有太大變化。英偉達展示的唯一體現計算性能的幻燈片是基于使用了 8 個 GPU的HGX 200 配置,總性能為“32 PFLOPS FP8”。而最初的H100提供了3,958 teraflops 的 FP8算力,因此八個這樣的 GPU 也提供了大約32 PFLOPS 的 FP8算力。
那么更多的高帶寬內存究竟帶來了哪些提升呢?這將取決于工作量。對于像 GPT-3 這樣的大模型(LLM)來說,將會大大受益于HBM內存容量增加。英偉達表示,H200在運行GPT-3時的性能,將比原始 A100 高出 18 倍,同時也比H100快11倍左右。還有即將推出的 Blackwell B100 的預告片,不過目前它只包含一個逐漸變黑的更高條,大約達到了H200的兩倍最右。
不僅如此,H200和H100是互相兼容的。也就是說,使用H100訓練/推理模型的AI企業,可以無縫更換成最新的H200芯片。云端服務商將H200新增到產品組合時也不需要進行任何修改。
英偉達表示,通過推出新產品,他們希望跟上用于創建人工智能模型和服務的數據集規模的增長。增強的內存能力將使H200在向軟件提供數據的過程中更快速,這個過程有助于訓練人工智能執行識別圖像和語音等任務。
“整合更快、更大容量的HBM內存有助于對運算要求較高的任務提升性能,包括生成式AI模型和高效能運算應用程序,同時優化GPU使用率和效率”,NVIDIA高性能計算產品副總裁Ian Buck表示。
英偉達數據中心產品負責人迪翁·哈里斯(Dion Harris)表示:“當你看看市場上正在發生的事情,你會發現模型的規模正在迅速擴大。這是我們繼續迅速引進最新和最優秀技術的又一個例子。”
預計大型計算機制造商和云服務提供商將于2024年第二季度開始使用H200。英偉達服務器制造伙伴(包括永擎、華碩、戴爾、Eviden、技嘉、HPE、鴻佰、聯想、云達、美超威、緯創資通以及緯穎科技)可以使用H200更新現有系統,而亞馬遜、Google、微軟、甲骨文等將成為首批采用H200的云端服務商。
鑒于目前市場對于英偉達AI芯片的旺盛需求,以及全新的H200增加了更多的昂貴的HBM3e內存,因此H200的價格肯定會更昂貴。英偉達沒有列出它的價格,但上一代H100價格就已經高達25,000美元至40,000美元。
英偉達發言人Kristin Uchiyama指出,最終定價將由英偉達制造伙伴制定。
至于H200推出后,會不會影響H100生產,Kristin Uchiyama則表示:“你會看到我們全年的整體供應量有所增加”。
一直以來,英偉達的高端AI芯片被視為高效處理大量數據和訓練大型語言模型、AI生成工具最佳選擇,在發表H200之際,AI公司仍在市場上拼命尋求A100/H100芯片。市場關注的焦點仍在于,英偉達能否向客戶提供足夠多的供應,以滿足市場需求。因此,H200是否還是會像H100一樣供不應求?對此NVIDIA并沒有給出答案。
不過,明年對GPU買家來說可能將是一個更有利時期,據《金融時報》8月報導曾指出,NVIDIA計劃在2024年將H100產量提升三倍,產量目標將從2023年約50萬個增加至2024年200萬個。但生成式AI仍在蓬勃發展,未來需求也可能會更大。
比如最新推出的GPT-4大約是在10000-25000塊A100上訓練的;Meta的AI大模型需要大約21000塊A100;Stability AI用了大概5000塊A100;Falcon-40B的訓練,用了384塊A100。
根據馬斯克的說法,GPT-5可能需要30000-50000塊H100。摩根士丹利的說法是25000個GPU。
Sam Altman否認了在訓練GPT-5,但卻提過“OpenAI的GPU嚴重短缺,使用我們產品的人越少越好”。
當然,除了英偉達之外,AMD和英特爾也在積極的進入AI市場與英偉達展開競爭。此前AMD推出的MI300X就配備192GB的HBM3和5.2TB/s的顯存帶寬,這將使其在容量和帶寬上遠超H200。
同樣,英特爾也計劃提升Gaudi AI芯片的HBM容量,最新公布的信息顯示,Gaudi 3基于5nm工藝,在BF16工作負載方面的性能將是Gaudi 2的四倍,網絡性能也將是其的兩倍(Gaudi 2有24個內置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍(Gaudi 2有96 GB的HBM2E)。正如我們在下圖中所看到的,Gaudi 3轉向了具有兩個計算集群的基于chiplet的設計,而不是英特爾為Gaudi 2使用的單芯片解決方案。
全新GH200超級芯片:為下一代 AI 超級計算機提供動力
除了全新的H200 GPU之外,英偉達還帶來了更新后的GH200超級芯片,它使用NVIDIA NVLink-C2C芯片互連,結合了最新的H200 GPU 和 Grace CPU(不清楚是否為更新一代的),每個 GH200超級芯片還將包含總計 624GB 的內存。
作為對比,上一代的GH200則是基于H100 GPU和 72 核的Grace CPU,提供了96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個封裝中。
雖然英偉達并未介紹GH200超級芯片當中的Grace CPU細節,但是英偉達提供了GH200 和“現代雙路 x86 CPU”之間的一些比較。可以看到,GH200帶來了ICON性能8倍的提升,MILC、Quantum Fourier Transform、RAG LLM Inference等更是帶來數十倍乃至百倍的提升。
但需要指出的是,其中提到了加速與“非加速系統”。這意味著什么?我們只能假設 x86 服務器運行的是未完全優化的代碼,特別是考慮到人工智能世界正在快速發展,并且優化方面似乎定期出現新的進展。
全新的GH200 還將用于新的 HGX H200 系統。據說這些與現有的 HGX H100 系統“無縫兼容”,這意味著 HGX H200 可以在相同的安裝中使用,以提高性能和內存容量,而無需重新設計基礎設施。
據介紹,瑞士國家超級計算中心的阿爾卑斯超級計算機(Alps supercomputer)可能是明年第一批投入使用的基于GH100的Grace Hopper 超級計算機之一。第一個在美國投入使用的 GH200 系統將是洛斯阿拉莫斯國家實驗室的 Venado 超級計算機。德克薩斯高級計算中心 (TACC) Vista 系統同樣將使用剛剛宣布的 Grace CPU 和 Grace Hopper 超級芯片,但尚不清楚它們是基于 H100 還是 H200。
目前,即將安裝的最大的超級計算機是J?lich超級計算中心的Jupiter 超級計算機。它將容納“近”24000 個 GH200 超級芯片,總共 93 exaflops 的 AI 計算(大概是使用 FP8,雖然大多數 AI 仍然使用 BF16 或 FP16)。它還將提供 1 exaflop 的傳統 FP64 計算。它將使用具有四個 GH200 超級芯片的“Quad GH200”板。
總的來說,英偉達預計這些新的超級計算機的安裝將在未來一年左右實現超過 200 exaflops 的 AI 計算性能。
編輯:芯智訊-浪客劍
式機開機無反應。
今天我們來修一臺臺式機,問題是什么?按開關沒有任何反應。人可能會說:按開關沒反應是不是開關壞了?電源壞了、主板壞了都會導致不通電。今天情況比較特殊,我們把顯卡拔掉,把這張技嘉的1660顯卡拔掉,換一張卡上去試一下。
現在裝了一塊1060開機,可以了。很明顯我們換了一塊1060的顯卡,主機現在已經可以正常開機了,屏幕也順利點亮了,就確定是這張顯卡導致的電腦不開機。會說:顯卡不開機很簡單,你這個視頻拍的有什么用?換張顯卡不就完了嗎?這么簡單的問題,今天我們就把顯卡修好。
今天我們就來試一下,看看能不能把這塊1660的顯卡修起來,讓它可以通電,可以正常使用?,F在我們一起來試一下,像這種不通電,顯卡插到主板上直接不通電了,我們維修是要怎么樣的維修思路?
·像一般這種情況肯定是找短路,肯定是哪一個供電或者是12伏供電哪里短路了,把主板電壓拉低了,所以不通電?,F在我們拆機看一下,我們熟練的把顯卡的外衣退掉了,退掉之后發現顯卡只有這么小一點,有一點失望。
·我們現在量一下,看看供電是哪里短路了。這種顯卡插到主板上面不通電,我們測量的點很少,像這些小單元都不需要測,如果是小單元測,主電肯定是通的,肯定是一個大電路,最大的電路就是12伏,我量明顯處于短路的狀態。
·現在給我2分鐘,我把線在12伏的地方接一條線,然后燒一下機,看一下是哪一塊電路導致的,我感覺有可能是這幾個管或者是這個都有可能。我們現在試一下,如果是哪塊有短路,加個電上去肯定會發熱。
·再打一針麻藥,直接在短路的地方加一根麻藥,這個位置比較好看一點,所以我就直接在這塊接一條線。
·12伏就拿這個電壓,不能調太高,調太高容易燒壞別的地方。
·下個三伏兩伏,現在已經把這個電已經給揭下來了,看看電流干到一安多了,掃一下,很明顯核心發燙,這種核心發燙不見得百分之百是核心被燒壞了,有可能是前邊的供電管短路導致12伏過來了,一起看一下是哪一個管。
·剛才已經測到了,加一個電上去芯片發燙了,芯片發燙什么情況會導致芯片發燙?肯定是前邊兒的四個芯片的供電管12伏短路了過來了,直接燒到芯片里邊了,所以芯片才發燙,核心發燙證明前邊的12伏供電管肯定是漏電過去了,漏給核心了,所以核心才會發燙。
·現在這四個管其中一個壞了,有人說了為什么不加大點電壓把這四個燒出來?如果加大電壓去燒的管兒有可能會燒出來是哪一個發燙,哪一個壞,但是它漏過去的電壓有可能會過大,把核心給搞壞,所以不需要這樣,只需要用堵的角度來看,先拆掉兩個,然后看一下好不好。
·因為我看到它的上面的這第一顆有一點點發黑,我決定先把上面的一顆拆掉,然后直接量一下電壓,看看出不出來,如果出來了直接把芯片換一個問題就 ok 了。
·說干就干,一不小心已經踩到了第三顆,前面兩個都是好的,這有點扯了,第三個拆掉了,還是短,繼續拆,四個全部都拆完了,我就不信了,明顯不短了,怎么拆到了第四顆?
·最后一個剛才應該從下邊往上拆好了,明顯組織已經恢復并不短了,說明就是第四顆管壞了,把三個先給它補上去,然后找一個管給它換上,我想問題應該就已經修復了?,F在把技嘉的顯卡又裝起來了,剛才看了一下型號1660ti,就是性能更高一點了。再開機試一下,電源開關沒打,嚇我一跳,開機試一下,已經可以成功的轉起來了,看看屏幕能不能點亮,成功點亮。
現在進入到系統里面看一下驅動能不能打上,然后給它壓力測試一下,感覺問題應該已經解決了,并沒有短路的情況了。今天拆芯片的運氣不太好,一共四個拆了四次,最后一個才把正確的芯片拆掉,運氣如果要是賭博,那就是相當于冤大頭,所以我從來不賭博。
看一下1660ti已經成功認到顯卡已經成功修復好的。本期視頻到這,感謝觀看。
天來看個七彩虹的火神,3080火神。這張卡的故障是CPU的水冷漏液導致無法開機,boss其他的售后人員可能是拒絕維修、拒保了。這張卡測量過這些供電之類的,外接供電都是正常,直接上機看一下是什么狀態。
準備開機,開機燈是亮的,不認卡極顯亮機。這個是插在主板上的屏幕,這個插在上面的沒有亮機,證明主板沒有認到顯卡。拆開里面看一下。
拆開背面,進的挺多的。這個位置是哪里供電了?這邊也進了挺多的,這里還有工號芯片。進的挺多的,測量一下看看核心有沒有色。測量一下顯存供電,MOS的應該是顯存供電,60多正常,1.8也是正常的,5伏看一下正常,還有個1伏供電,這里也是正常的。
清理一下背面的那些臟東西,這么黏,其實這些東西都不礙事,最主要是工號芯片這里也有。水冷液怎么是黏的?按道理沒有這么黏的,感覺像可樂或者是飲料之類的。大概清理完再刮一下這些綠發綠的,這個就難搞。這個是不是省城供電?不是,省城供電來的。
先測量這邊的電容電阻,再來測量下面的工號芯片,這邊有一個0歐的電阻,看一下,這個是減流電阻,這個是正常的。這里還有0歐的,0歐的不正常,已經斷線了。這里還有0歐的,這個也斷線了,190多,這個是正常的。
就這顆和這顆要換掉,看一下有沒有短路。這個沒有,另外一邊也沒有,那就換兩顆0歐的。電阻線卸下來之前要上點吸,不然很難搞下來的。3080的是高溫吸,需要搞點低溫吸。中和一下,直接把這個給撬掉就更好了,還是挺難撬的,這個應該可以撬掉,那個撬不掉,這個敲掉了,補兩顆電阻。
現在這里和這里都換完了,現在來測量一下,00就是等于0的,不會等于別的數字的,0這邊也是0,搞好了,但是這邊工號芯片的影響發黑,還有這邊還要加焊一下,加上一下,加焊一下,用洗發水洗一下,把眼角給擦亮了,現在就變亮了,看到沒有?眼角整齊變亮,還是有一兩個黑的,沒事用刀子刮一下就可以。
現在處理完來看一下電壓有沒有起來,開機,開機,這個衣服不是核心供電,顯存供電都有了,1.8也有了,等一下還有個衣服,這衣服怎么沒有?我還說OK,這衣服怎么沒有?搞毛,沒衣服供電,重新開一下,把這標筆放在衣服這里,開心,還是沒有,沒有1伏供電。
來測一下正面的5伏供電和12伏,5伏在這里,5伏是有的,12伏看一下,12伏只有1.5,這不對,還是缺12伏供電,找到原因了,沒有12伏是因為電阻被我裝錯了,要么是裝到隔壁,要么裝到這,隔壁把它裝到中間了,移一下位就可以了,隨便移一個位置,把電阻換到位置以后再來看一下,戳在這里,應該出來,開機,0.9出來了。
上機看看,要裝背板,背板暖樣,還要洗一下背板,準備開機看一下,開機看能不能點亮,希望能秒殺B2,極限沒亮了,看看這個亮了,進系統看一下,進入了系統,全部都正常,RTX3080這卡成功修復,用水冷的要小心,其實3080也不用水冷的。
今天的維修就到這里,喜歡我的可以關注我,測試了一下,全部都正常。