者 | ZeR0
編輯 | 漠影
上周,全球最大云計算巨頭亞馬遜云科技自主研發的Graviton4處理器全面上市,最初為全新實例Amazon EC2 R8g提供支持。
這件事還挺讓人感慨,有種Arm服務器CPU千帆過盡、苦盡甘來的既視感。
服務器CPU領域曾經上演風水輪流轉,早期由一眾精簡指令集前輩一統天下,后來被復雜指令集架構x86逆襲蠶食。等精簡指令集中的后輩Arm想闖數據中心賽道時,x86早已全面霸場。
其實Arm早在2008年就對這個新興市場躍躍欲試,結果一晃十年過去,幾經試水,愣是沒激起零星的水花。
第一張進入數據中心市場的門票,還是云計算產業老大哥亞馬遜云科技送來的。
當時亞馬遜云科技發了個“三連擊”:
1、2015年1月,出其不意地收購以色列芯片設計企業Annapurna Labs,引起產業密切關注;
2、2017年,推出首款自研網絡芯片Amazon Nitro,把全球第一款商用的DPU芯片送上歷史舞臺;
3、2018年,發布首款Amazon Graviton處理器,讓Arm服務器CPU在數據中心歷史中有了清晰的坐標。
隨后亞馬遜云科技緊鑼密鼓開展了教科書般的多線定制芯片攻關,其他中美大廠也相繼跟上自研處理器的風潮。漫長的服務器CPU拉鋸戰,終于從x86單方面碾壓,變成Arm陣營聲勢漸漲。
Graviton亦逐漸坐穩全球最廣泛使用的Arm服務器CPU,亞馬遜云科技更是被視作帶領Arm生態在數據中心開疆辟土的“全村的希望”。伯恩斯坦去年的一份報告顯示,亞馬遜云科技占據了全球超過一半的Arm服務器CPU市場。
▲亞馬遜云科技五年發布五款Graviton處理器(圖源:智東西)
今天,大廠自研芯片屢見不鮮,但成功者寥寥可數。亞馬遜云科技用五年寫出的這本自研服務器CPU參考教材,值得被反復咀嚼。
一代開山路,二代奠江湖。
這是亞馬遜云科技自研服務器芯片發家的真實寫照:2018年11月發布的Graviton處理器,發出了云計算大廠自研CPU的第一聲槍響;一年后,繼任者Graviton2出場,標志著Arm服務器CPU正式進入數據中心市場競爭中,與x86掰手腕。
Graviton2集成了300億顆晶體管,核心數量足足是上一代的4倍,并翻倍提升了L1/L2緩存,總線帶寬達到2TB/s,相比上一代實現了7倍的性能提升。與基于x86的同類實例相比,基于Graviton2的實例性能提高了40%,每個實例成本降低了20%。
在低功耗上的出色表現,使亞馬遜云科技大舉將通用工作負載轉移到Graviton2上,以節省電力和成本。此后,Graviton系列的采用率飆升,覆蓋的工作負載從起初的Cache和Web擴展到數據分析、機器學習、高性能計算等。
Graviton在市場的初步告捷,堪稱改變Arm命運的節點。
這背后,亞馬遜云科技在底層創新上頗費心思:首次不再使用同步多線程技術,而是實現物理核心單線程資源獨享,讓每個vCPU獨占1個物理核心,使vCPU之間更加隔離,不會因爭搶資源而導致性能抖動。
從第一代到第二代,Graviton通過增加核數取得了可觀的性能提升,但到第三代,亞馬遜云科技需要納入更多的設計創新。
增加核數、提升主頻,是提升性能的兩個常見手段。2021年發布的第三代Graviton3沒有采用這些思路,核心數不變,主頻僅略微提升。因為提高頻率對于大規模數據中心來說會比較冒險,可能會帶來大量的能耗,而且需要搭配升級的電源及散熱配置,最終導致客戶的使用成本上升。
Graviton3做了幾項有別于前代的創新:
1、采用Chiplet設計,將7塊硅die封裝在一起;
2、采用指令級并行方法,提高了單個核心周期可執行的指令數量,使核心能完成更多任務;
3、針對內存帶寬和延時敏感型工作負載,增加了40%的內存空間,并采用DDR5將內存通道帶寬提升50%。
結果,相比上一代,Graviton3能將應用負載的性能無差別提升25%,功耗相比x86實例降低多達60%。通過內置機器學習硬件加速單元,這顆處理器還實現了3倍的機器學習性能提升,并被AI研究人員和企業用于云中的MLOps。
2022年推出的Graviton3E,專門針對浮點和向量指令運算進行了優化,向量計算性能達到Graviton3的2倍,尤其適用于人工智能/機器學習、高性能計算等應用場景。
最新一代Graviton4用上了更好的Neoverse-V2核心,并將核心數增加到96核,每個核心的L2緩存提升1倍至2MB,內存帶寬提升75%。
每一代Graviton都會較上一代有兩位數的性能提升,并且單位算力功耗不斷下降。而節能減排對于數據中心的可持續發展極其重要,Twitter、Databricks、F1方程式賽車、Snap等知名云客戶都使用了基于Graviton的服務,并對其降本增效的優勢贊譽有加。
據外媒報道,到2022年年中,Graviton約占亞馬遜云科技CPU實例的20%,其中大部分是Graviton2,亞馬遜云科技新增虛機實例中約50%都是Graviton系列。
一些云客戶公開背書稱,他們通過租用Graviton服務節省了10%~40%的計算成本。
作為Graviton早期用戶的大宇無限,用Graviton2將大數據作業的成本降低了20%;大量使用Graviton2實例的涂鴉也升級到新一代實例,將IoT平臺加解密性能提高50%。
根據市場調研機構IDC的數據,2023年第一季度Arm服務器出貨量市占率約為10%。此時Arm在服務器市場的生態問題已經初步得到解決。
截至目前,亞馬遜云科技在全球六大洲33個地區和100多個可用區累計部署了超過200萬張Graviton處理器。這些處理器驅動了超過150種計算實例,被全球超過5萬的企業和開發者所使用。
在服務云客戶的過程中,亞馬遜云科技團隊發現如果希望針對所有可能的工作負載徹底變革計算的性價比,需要徹底重新思考實例,深入底層技術,包括定制芯片。
為什么是基于Arm架構設計芯片?
對于亞馬遜云科技來說,這既是形勢所迫,又是前瞻布局。
首先,Arm的許可證相對易得,而且設計自由度高,便于亞馬遜云科技設計出更符合云業務需求的處理器。
其次,省電長期是數據中心的老大難??紤]到規模效應,每個芯片節省的幾瓦特都很重要。而Arm已經被移動處理器市場檢驗過高能效、高算力密度、低成本等優勢。
另外前文我們提到過,Graviton在提升頻率上很謹慎,通過更高的指令級并行來補足性能,使其在性價比上更有競爭力。在高CPU利用率下,Graviton中每個vCPU獨占一個物理核心,不存在爭用問題,能保持依然快的速度,其價格優勢則會變得明顯。
據亞馬遜云科技披露,相比采用Graviton3的第七代R7g實例,基于新一代Graviton4處理器的Amazon EC2 R8g實例性能提高了30%,實例大小更大,vCPU和內存增加多出3倍,能為數據庫、內存緩存和實時大數據分析等內存密集型工作負載提供更好的性價比。
與R7g實例相比,R8g實例可將Web應用程序最高提速30%,數據庫最高提速40%、大型Java應用程序最高提速45%。
其性能和性價比優勢已經得到一些實測驗證。
根據Phoronix發布的一些基準測試結果,在相同vCPU數量時,新Graviton4核心大致與英特爾Sapphire Rapids性能相當,同時能媲美AMD第四代EPYC,在運行高性能計算、加密、代碼編譯、光線追蹤、數據庫、3D建模等工作負載時,代際進步整體非常出色。
▲經測試,基于Graviton4的R8g實例性價比超過基于英特爾至強、AMD EPYC的亞馬遜云科技云實例(圖源:Phoronix.com)
作為R8g實例首發客戶之一,Honeycomb分享稱Graviton4的吞吐量改進非常明顯,相比四年前剛開始使用Graviton,每vCPU吞吐量提高了一倍多。他們準備在R8g實例系列正式發布后立即把整個工作負載遷移到Graviton4上。
爆款游戲《堡壘之夜》的制作公司Epic Games評價說,基于最新Graviton4的EC2 R8g實例是基于他們測試過的最快的EC2實例,在其“最具競爭力和對延遲敏的工作負載中表現出色”,可以充分提高游戲服務器的性能。
對SAP HANA Cloud使用R8g實例的初步測試結果顯示,與基于Graviton3的實例相比,R8g實例的分析性能可提升高達25%,事務性工作負載性能可提升高達40%。
▲R8g實例不同規格對比
迄今為止,只有亞馬遜云科技真正實現了大規模使用Arm架構。
為什么是亞馬遜云科技?正如亞馬遜云科技大中華區解決方案架構總經理代聞在今年中國峰會上所言:“只有在云計算的環境下,才有機會做這樣的從應用到CPU的全棧創新?!?/span>
自研芯片不是紙上創新,需要工程經驗的積累,不僅要追求高性能,而且要足夠的穩定可靠和高度安全。
用相同Arm微架構不代表就能做出一樣性能的CPU,設計出芯片也不代表就能取得量產和商業上的成功。光是幾百個CPU核心互連帶來的線性度和通信延時問題,就能難倒不少芯片團隊,更別提設計Arm服務器芯片還要突破生態難關。
亞馬遜云科技的研發思路是從對云客戶工作負載的深刻理解,逆向穿透到芯片設計。這種以客戶為中心的方法能讓亞馬遜云科技短期內進行調整,以快速適應市場動態。
以Graviton4為例,亞馬遜云科技首次面向實際應用設計CPU架構,該處理器的設計工程中從傳統的MicroBenchmark基準測試評價體系轉向以實際工作負載進行評價的方法。比如,優化Cassandra數據庫、Groovy應用、nginx服務器,所需要的前端和后端CPU參數是不一樣的。
龐大的客戶規模為亞馬遜云科技高筑壁壘。其遍布全球的廣泛數據中心集群,能承載Graviton系列處理器的落地。全球最大云計算業務所形成的規模效應,又能為亞馬遜云科技有效攤薄成本。
持續創新的云服務,使亞馬遜云科技能夠了解到使用最多的應用及其資源消耗模式,以此來挑選對用戶來說收益最高的技術點,進行針對性優化,快速改進軟件和硬件堆棧甚至是CPU設計,研發出相匹配的vCPU和硬件核心。
同時,亞馬遜的各條托管服務的產品線都使用統一的基礎設施,因此Graviton創新可以及時應用到所有的托管服務里。用戶通過更換計算選項,就能輕松享受到Graviton帶來的性價比提升。
用戶只需關心哪款實例更能滿足需求,亞馬遜云科技負責將軟件的遷移和學習成本打下來。通過將更多的管理服務和Graviton做深度集成,從x86無縫遷移到Arm變得簡單快捷。
今天,自研芯片已經成科技大廠的標準動作,不管是降本增效、構建競爭優勢,還是提高可控性、降低第三方芯片企業依賴,都是容易說服下游客戶和投資者的好故事。
但在九年前,當亞馬遜云科技率先踏出自研芯片之路時,這還是個超前的探索。
回溯云計算發展史,亞馬遜云科技在2006年發布首款EC2(彈性云計算)實例定義被視作一個歷史時刻。隨后越來越多的企業逐漸接受云計算概念,并開始將自家應用遷移到云端。
現在亞馬遜云科技可以在云上順利運行幾萬個節點的高性能計算集群來訓練大模型,能在云上處理高并發的實時流媒體應用,這些在當時都是很難想象的。要知道亞馬遜云科技的第一款EC2實例,主頻只有1.7GHz,網絡帶寬250Mbps,內存不到2GB,磁盤是只有160GB的機械盤。
在云計算業務剛起步的幾年,亞馬遜云科技要解決很多棘手問題,特別令團隊焦慮的是:如果使用定制版Xen作為虛擬化管理程序,無論如何耗費大量時間來優化代碼,虛擬層始終會占用主機資源,并且x86 CPU并不擅長處理網絡流量。
直到2013年,一家以色列芯片企業Annapurna Labs走進亞馬遜云科技的視線。經過合作,亞馬遜云科技首次將網絡處理寫到硬件。驚喜的落地表現,讓亞馬遜云科技盯上了這家出色的合作伙伴:2015年1月,亞馬遜云科技宣布收購Annapurna Labs,自此踏上自研芯片的旅程。
回過頭來看,這絕對是亞馬遜云科技歷史上一筆精明的投資。
就在這一交易的兩年后,亞馬遜云科技對外宣布Nitro虛擬化平臺,將安全、管理、監控全部卸載到硬件上,將主機算力近乎100%地提供給客戶。
從此,云計算走上了業務與基礎設施完全物理隔離的路子,底層的虛擬化技術創新和上層的服務器種類發展可以并行展開。
這催生了EC2實例的關鍵拐點:從2006年到2017年,亞馬遜云科技用11年從1種EC2實例做到70種;而從2017年到2023年,EC2實例驟然爆發式增長,6年從70種發展到750種,能為各類負載提供合適的計算實例。
站在Nitro成功的基石上,亞馬遜云科技發展出網絡芯片、服務器CPU、AI訓練和推理芯片三條產品線:Nitro網絡芯片已經發展到第五代,持續優化網絡性能、存儲性能和安全加固;Graviton已經發布四代五款;AI推理芯片Inferentia和AI訓練芯片Trainium,通過提供更具性價比的推理和訓練實例,讓用戶有了GPU之外的AI加速選擇。
這使得亞馬遜云科技能夠保持內部全棧創新的靈活性:從定制的板卡及服務器開始,到深入底層定制芯片,再到橫向擴展自研芯片版圖,亞馬遜云科技逐漸將從芯片、硬件到軟件整合協同,在為業務帶來更好成本效益和可靠性的同時,構成獨屬于自己的核心競爭力。
自研芯片與亞馬遜云科技自研的存儲服務器和高速網絡系統聯動,使得更多芯片能夠高效互連,從而真正明顯縮短計算的時間。站在這些創新基礎上,亞馬遜云科技能夠支持云計算中運行最具挑戰性的任務之一——人工智能與機器學習。
在近期舉行的亞馬遜云科技紐約峰會上,亞馬遜云科技宣布96%的AI/ML獨角獸已將其業務跑在亞馬遜云科技上,2024福布斯AI 50榜單中90%的企業選用亞馬遜云科技。從2023年至今,亞馬遜云科技已經正式發布了326項生成式AI功能,同期機器學習和生成式AI服務的正式可用數量超過了其他供應商的兩倍。
廣泛的用例與深厚的技術積累總是唇齒相依。這些數量驚人的AI用例,使得亞馬遜有足夠的實踐案例來為客戶提供能取得最佳收益的選擇,而廣泛的客戶反饋又能成為其芯片設計最好的動能。芯片技術的持續迭代,將托舉起越來越高性價比的云服務,推動生成式AI普惠。
市場上有大量的芯片選擇,云基礎設施提供商能在如何將所有這些整合在一起方面發揮價值,從而更好實現從基礎設施到云服務的各種創新。
與獨立芯片企業不同的是,亞馬遜云科技自研芯片的目的不在于參與市場競爭,而在于為其客戶提供一個“萬能商店”,既提供自研芯片,又提供英特爾CPU、英偉達GPU等市面主流選擇,由客戶來根據這些芯片實例的配置文件,自行選擇最能滿足工作負載需求的產品組合。
Graviton的六年演進,走通了Arm服務器CPU落地的故事。Arm為亞馬遜云科技提供了靈活定制CPU的基礎,亞馬遜云科技則推動了服務器芯片市場格局的變陣,成為Arm在數據中心市場展現成本和性價比優勢的最好代言。
只要Graviton還有降本增效的空間,亞馬遜云科技就可以繼續降價讓利,把規模與技術的紅利回饋給云客戶。
T之家 4 月 30 日消息,電氣電子工程師學會(IEEE)本周刊發的《Transactions on Cloud Computing》期刊中,其中一篇論文表示在超大規模云中處理數據庫相關任務方面,2021 年由阿里云開發的是速度最快的 Arm 服務器處理器。
該論文標題為《Arm 云服務器準備好應對數據庫工作負載了嗎?一項實驗研究》(Are Arm Cloud Servers Ready for Database Workloads? An Experimental Study),得出結論為 Arm CPU 的云服務器運行速度非常快,在某些任務上超過了英特爾至強處理器。
該項目由新加坡國立大學計算學院研究助理教授 Dumitrel Loghin 帶領,在 8 個云服務器上測試了 5 款 Arm 服務器處理器、以及英特爾至強 Platinum 8488C(2023 年第 1 季度發布的 Sapphire Rapids)。
在測試結果中,阿里云的倚天 710 處理器表現優異,Loghin 表示倚天 710 處理器使用更新版本的 Arm ISA,以及一些競爭對手 CPU 無法利用的快速 DDR5 RAM。
平頭哥旗下的倚天 710 芯片,采用 2.5D 封裝,分為兩個 DIE, 總計 600 億晶體管,包含 128 個 Armv9 高性能 CPU 核,每個 CPU 核心配置 64KB 一級指令緩存,64KB 一級數據緩存,以及 1MB 二級緩存,片上集成 128MB 系統緩存。
內存子系統配置 8 通道 DDR5, 峰值總帶寬達到 281GB/s,I / O 子系統含 96 通道 PCIe5.0, 雙向理論總帶寬達到 768GB/s。
IT之家附上參考地址
空間 Z4 Pro 私有云發布于 2023 年 10 月份,搭載四核英特爾 N97 處理器,首發 2499 元。
京東 618 大促期間,
疊加下方多重優惠后,僅需 2195.6 元 + 買貴 2 倍賠:
PLUS 會員滿 3000-240 元超級補貼:點此查看。
下單立減 110 元,PLUS 會員立減 18.08 元。
點擊下方兩款單品,各領券 + 加購物車 1 件,實付 2639.92 元,主商品實付 2195.6 元。
180 天只換不修,官方直營兩年質保,曬單送迅雷超級會員季卡。
另外,今日可領京東 618 無門檻紅包,即領即用:點此抽今日紅包。
IT 之家整理極空間 Z4 Pro NAS 規格如下:
極空間 Z4 Pro NAS 標準版搭載了 4 核 3.6GHz 的英特爾 N97 處理器,核顯 24EU 規格,內存可選 8GB 或 16GB DDR5,配備 32GB eMMC 閃存。
極空間 Z4 Pro NAS 支持 4 個機械硬盤和 2 兩個 M.2 SSD,還配有擴展用的 eSATA 接口,搭載兩個 2.5G 網口,USB 接口有三個,視頻輸出接口為 HDMI 2.0。
官方表示,Z4 Pro NAS 內部架構升級,進一步減少風噪,搭載雙風扇散熱;機身為航空鋁材質,配備全新設計的磁吸前蓋。