據英國廣播公司5月17日報道,從惠普拆分出的慧與公司(HPE)推出了一臺名為“The Machine”的計算機原型機,其擁有160TB內存及基于Linux的操作系統。該設備的運作更多地依賴于內存而非運算能力。
HPE公司表示,The Machine是為大數據處理而設計的,其可同時分析相當于1.6億本書的信息量。該公司的內存驅動計算(Memory Driven Computing)研究項目最終會生成一個“幾乎無訪問限制的”內存池。
HPE總裁梅格·惠特曼(Meg Whitman)指出,“在我們每天創造的數據‘大山’背后,隱藏著下一個偉大的科學突破、推動產業變革的創新或改變生活的技術。為了實現這一前景,我們不能依賴于過去的技術,我們需要一臺為大數據時代而建的計算機。”
南安普敦大學(University of Southampton)的萊斯·卡爾教授(Prof Les Carr)稱,The Machine的運算速度很快,但大數據還面臨著其它挑戰?!凹涌焖俣鹊慕K極方法是確保計算機的所有數據盡可能在同一個地方處理和存儲,因此這確實是一種試圖加快速度的不同途徑?!彼硎?,“我們需要使計算機的處理過程,不僅僅是變得更快,而是要變得更深入,更具商業關聯性。生活中的許多方面就是這樣,更快不一定意味著更好。(實習編譯:韋舒婷 審稿:劉洋)
(責編:王瑩(實習生)、姚欣雨)
數據文摘出品
來源:VB
編譯:牛婉楊、笪潔瓊
大約一年前,微軟宣布將向OpenAI投資10億美元,共同為微軟的Azure云平臺開發新技術,并進一步擴展大規模人工智能的能力,以兌現AGI(通用人工智能)的“承諾”。
作為交換,OpenAI同意將其部分知識產權授權給微軟,然后將其商業化并出售給合作伙伴。OpenAI還將在開發下一代計算硬件的過程中,在Azure上培訓并運行人工智能模型。
一年后,到了兌現承諾的時間了!
昨天,在微軟Build 2020開發者大會上,微軟發布了專為OpenAI打造的超級計算機!
微軟聲稱,與TOP 500相比,它排名第五!根據最新排名,它排在中國國家超級計算機中心的天河-2A后面,在德克薩斯高級計算機中心的Frontera前面,這意味著它在峰值時每秒可以執行38.7到100.7萬億個浮點運算!(即petaflops:每秒千萬億次浮點計算)
OpenAI很久以來就表示,巨大的計算能力是邁向AGI或AI的必經之路,AGI可以學習人類能完成的任何任務。然而包括Mila創始人Yoshua Bengio、Facebook副總裁Yann LeCun在內的名人都認為AGI并不存在。
但OpenAI的聯合創始人和支持者,其中包括Greg Brockman,首席科學家Ilya Sutskever,Elon Musk,Reid Hoffman和前Y Combinator總裁Sam Altman始終相信,功能強大的計算機結合強化學習和其他技術,可以實現顛覆性的AI技術進步。
微軟超級計算機的發布代表了OpenAI在這一愿景上的巨大賭注。
這臺由Azure托管、OpenAI聯合設計的超級計算機包含285,000個處理器內核、10,000個顯卡,每個顯卡服務器都能達到每秒400吉比特的連接性。它的設計目的是訓練單一的大型人工智能模型,這些模型可以從目前自主出版的書籍、指導手冊、歷史課程、人力資源指南和其他公開資源中汲取數十億頁的文本。
研究表明,這些大型模型表現良好,因為它們能夠深入理解語言、語法、知識、概念和上下文的細微差別,使它們能夠總結演講、在實時游戲聊天中調整內容、解析復雜的法律文件,甚至通過搜索GitHub自動生成代碼。微軟已經使用它的圖靈模型——它很快就會以開源的形式出現——來加強對Bing、Office、Dynamics和其他生產力產品的語言理解。
微軟聲稱,在Bing中,這些模型改進了標題生成和問題回答,在某些市場上提高了125%。在Office中,他們表面上推動了Word的智能查找和關鍵洞察工具的發展。Outlook使用它們進行建議回復,自動生成可能的電子郵件回復。在Dynamics 365 Sales Insights中,他們根據與客戶的互動向賣家提出了建議。
Outlook的智能回復使用了在Azure機器上訓練的深度學習模型
從技術角度來看,大型模型更具優勢,因為它們是自我監督的,這意味著它們可以通過數據各部分之間的關系來從數據中生成標簽——這一步被認為是實現人類智能的關鍵。這與監督學習算法不同,后者針對人為標記的數據集進行訓練,很難針對特定行業、公司或感興趣的主題對任務進行微調。
微軟首席技術Kevin Scott在一份聲明中說:“這些模型令人興奮的地方在于,它們能夠實現的功能非常廣泛?!?/p>
無論超級計算機是實現AGI的一小塊墊腳石,還是將在實現AGI的道路上突飛猛進,那些用于設計超級計算機的軟件工具,都能為微軟帶來新的市場機會。通過AI規?;媱?,這家科技巨頭正在提供資源,以優化的方式在Azure AI加速器和網絡上訓練大型模型。它將訓練數據分為幾批,用于在集群中訓練模型的多個實例,并定期取平均值以生成單個模型。
這些資源包括新版本的DeepSpeed,這是Facebook PyTorch機器學習框架的AI庫,可以在同一基礎架構上訓練大于15倍,快10倍的模型,并支持在ONNX Runtime上進行分布式訓練。微軟聲稱,當與DeepSpeed結合使用時,ONNX上的分布式訓練,可使跨硬件和操作系統的模型實現高達17倍的性能提升。
微軟首席技術官Kevin Scott在一份聲明中說: “我們正在建造更好的計算機,更好的分布式系統,更好的網絡,更好的數據中心。通過開發用于訓練大型AI模型的領先式基礎架構,所有這些將使整個Azure云的成本、性能和靈活性更好?!?/p>
相關報道:
https://venturebeat.com/2020/05/19/openai-microsoft-azure-supercomputer-ai-model-training/
數據文摘出品
來源:IEEE
編譯:劉俊寰、曹培信
人工智能初創公司Cerebras Systems去年很火,8月份,其發布了史上最大半導體芯片WSE,擁有1.2萬億晶體管,比最大的GPU大56.7倍;11月份,第一臺基于該芯片的計算機CS-1發布,號稱世界上最快的深度學習計算系統。
如今,時間剛過去1個多月,在洛斯阿爾托斯的Cerebras總部,一些客戶已經通過光纖電纜將他們的數據輸入了4臺CS-1計算機進行訓練,這些64厘米高的機器不停地運行著,每臺機器以20千瓦的功耗將熱量通過墻上的一個洞散發到硅谷的街道上。
WSE比通常用于神經網絡計算的芯片要大,比如Nvidia Tesla V100 graphics processing unit或者谷歌的Tensor Processing Unit。但是,更大就意味著更好嗎?
顯然Cerebras自己是這么認為的,其首席執行官兼聯合創始人Andrew Feldman表示,受訓練速度的限制,如今的人工智能遠遠低于它本應達到的水平。
比如,一輛自動駕駛汽車要識別它在路上遇到的所有重要物體,首先是訓練深度學習模型,這個過程必須向模型輸送道路物體的大量圖像,這一過程發生在一個數據中心,在那里,消耗數十甚至數百千瓦的計算機往往被用來完成一個長達數周的訓練任務。假設得到的神經網絡能夠以所需的精度執行任務,那么定義網絡連接強度的許多參數就會被下載到汽車的計算機上,由計算機執行深度學習的另一半任務,即推理。
Cerebras的客戶抱怨說,在今天的計算機上運行大型神經網絡的訓練需要長達6周的時間。按照這個速度,他們一年只能訓練6個神經網絡。Feldman說:“我們想要測試更多,如果能在2-3小時內訓練一個網絡,就能在一年內測試數千個想法?!?/p>
Cerebras就是在這種需求下誕生的。
最強深度學習計算機系統的誕生始末
CS-1型計算機本身從外部看不到多少東西。實際上,每個機箱大約四分之三是由冷卻系統占用的,最后的四分之一才是關鍵:一個強大的計算機幾乎完全由一個芯片組成。但這種芯片的面積超過46255平方毫米,是你能買到的任何其他處理器芯片的50多倍。擁有1.2萬億個晶體管、40萬個處理器核心、18千兆字節的SRAM以及每秒可移動1億億位數據的互連。
CS-1的紙面數據也同樣令人震驚。該公司表示,一個10個機架的TPU2集群(現在是三代Google AI計算機的第二個集群)消耗的電力是它的5倍,占用的空間是它的30倍,僅能實現WSE單臺計算機三分之一的性能。
CS-1的誕生可以追溯到2015年,那時候,服務器企業Sea Micro(AMD收購)的資深員工Feldman,也就是Cerebras的創始人。一開始他想要制造一臺完全符合現代人工智能工作性質的計算機,這個機器需要滿足:能夠快速移動大量數據;更接近處理核心的內存;這些核心不需要處理其他核心正在處理的數據。
這讓該公司的資深架構師和首席技術官Gary Lauterbach立即想到了幾件事:
在很大程度上,需要在這些核心之間來回移動數據,這使得WSE具有唯一性。在兩個核之間移動數據的最快、最低能耗的方法是將它們放在相同的硅基板上。當數據必須從一個芯片傳送到另一個芯片時,速度和功率的代價是巨大的,因為距離更長,而傳送信號的“電線”必須更寬,密度也必須更小。
將所有通信都保持在硅上的驅動力,再加上對小型核心和本地存儲器的渴望,都指向了制造盡可能大的芯片,也許是整個硅晶圓那么大的芯片。Feldman說:“很顯然,我們做不到這一點,但這樣做有很大的好處?!?/p>
但是Lauterbach看到了一種架構解決方案:因為他們所針對的工作負載傾向于有成千上萬個小的、相同的內核,所以有可能放入足夠多的冗余內核來解決其中1%的缺陷導致的故障,并且仍然有一個非常強大的大芯片。
當然,Cerebras仍然需要解決大量的制造問題來構建它容錯的巨量芯片。例如,光刻工具被設計成將它們的特征定義模式投射到相對較小的矩形上,并一遍又一遍地這樣做。由于在晶片的不同位置上澆鑄不同圖案的成本和困難,僅憑此限制將使很多系統無法在單個晶片上構建。
Cerebras內部:冷卻系統占據了CS-1的大部分,WSE芯片位于左后角。
不過WSE并不需要這樣做,它看上去像是利用相同的圓晶制造出的芯片,和普通的沒什么差別。最大的挑戰是找到一種將這些偽芯片連接在一起的方法。芯片制造商會在每一塊芯片上都留下被稱為劃線(scribe lines)的空白窄邊,晶圓通常沿著這些線被切成小塊。Cerebras與臺灣半導體制造公司(TSMC)合作,開發出了一種跨越劃線的互連方式,使得每個芯片中的核心可以通信。
現在,所有通信和內存都在一塊硅片上,數據可以暢通無阻地被壓縮,產生每秒1000千兆位的核心到核心帶寬和每秒9千兆位的SRAM到核心帶寬。Feldman說:“這是一星半點,這是增強了四個數量級的帶寬速度。”
劃線交叉互連(Scribe-line-crossing interconnects)并不是唯一被攻克的難題,芯片制造硬件必須進行相應的修改。即使是用于電子設計自動化的軟件也只有被定制后,才能在如此大的芯片上工作。
Feldman說:“每一條規則、每一種工具和每一種制造設備都是為挑選一塊普通大小的巧克力餅干而設計的,而且我們提供的是一塊整個餅干。每一步,都要創新?!?/p>
他還說道,晶圓規模的集成“在過去40年里一直被忽視”。如今Cerebras已經進行了初步嘗試,會有更多的公司加入進來,大門也自然會對其他人敞開?!皯摃胁簧偃讼胍獙で笈c我們的合作,以解決人工智能以外的問題?!?/p>
需要解決的不僅是冷卻系統,還有供電
事實上,伊利諾伊大學和加州大學洛杉磯分校的工程師們認為,使用一種叫做硅互連結構(silicon interconnect fabric)的技術,Cerebras的芯片可以促進他們的晶圓級計算工作(wafer-scale computing efforts)。伊利諾伊大學的Rakesh Kumar說:“這在很大程度上驗證了我們目前的研究?!?/p>
誠然,CS-1體現的不僅是WSE芯片,但它也與WSE芯片相差不多,這既是出于設計需求,也是出于必要,因為橫穿主板的是一個位于芯片上方的電力輸送系統和一個位于芯片下方的冷板。而令人驚訝的是,在計算機的發展中,最大的挑戰來自于電力傳輸系統。
WSE的1.2萬億晶體管的設計工作電壓約為0.8伏,這是處理器的標準配置。不過,由于數量太多,總共需要20000安培的電流。Lauterbach說:“在沒有明顯電壓降的情況下,將20000安培電流注入晶圓,這是一項相當艱巨的工程挑戰,比冷卻晶圓或解決產量問題還要困難得多?!?/p>
并且,電源不能從WSE邊緣進行傳輸,因為互連中的電阻會在電壓到達芯片之前將其消耗至零。正確答案是從上面進行垂直傳送,Cerebras設計了一塊玻璃纖維電路板,里面裝有數百個用于控制功率的專用芯片,一百萬根銅柱將大約一毫米的距離從玻璃纖維板連接到WSE的各個點。
以這種方式傳送能量看上去在很大程度上解決了問題,而且也很簡單,但事實證明并非如此。在實際操作中,芯片、電路板和冷板會預熱到相同的溫度,但它們會膨脹不同的量級,銅膨脹最大,硅膨脹最小,玻璃纖維介于兩者之間。像這樣的不匹配在正常尺寸的芯片中是一個令人頭疼的問題,因為這種變化足以切斷與印刷電路板的連接,或者產生足夠的應力破壞芯片。對于WSE大小的芯片,即使是很小的尺寸變化也會轉化為毫米級。
Lauterbach就此說道:“與主板的熱膨脹系數不匹配是一個殘酷的問題。”Cerebras在尋找一種具有合適的熱膨脹中間系數的材料,其應介于硅和玻璃纖維之間,只有這樣才能保證百萬個電力輸送站的正常連接。
但是,最終,工程師們不得不自己造一個,這項工作就花了一年半的時間。
節能雖好,但對客戶或許沒有太大吸引力
2018年,谷歌、百度和一些頂級學術團體開始聯合研究基準(benchmarks),以便進行系統之間的比較。5月份,他們發布了MLPerf。
根據MLPerf,神經網絡的訓練在過去幾年取得了巨大的進步。在ResNet-50圖像分類問題上,Nvidia DGX在80秒內就完成了。這在以前,如果使用的是英偉達的DGX-1需要約8小時,如果使用的是K80則需要25天。
Cerebras還沒有發布MLPerf結果或任何其他可獨立驗證的比較。相反,該公司更愿意讓客戶使用自己的神經網絡和數據來試用CS-1。
據分析人士稱,這種做法并不罕見。Moor Insights的人工智能分析師Karl Freund表示:“每個人都有為自己業務開發的模型。對買家來說,這才是唯一重要的。”
早期客戶例如阿貢國家實驗室(Argonne National Labs),他們會提出一些相當強烈的需求。在訓練神經網絡實時識別不同類型的引力波事件(gravitational-wave events)時,科學家們最近使用了阿貢耗電四分之一兆瓦的Theta超級計算機的資源,世界上28個最強大的系統之一。
把功耗降低到千瓦似乎被證明是超級計算的一個關鍵好處。但不幸的是,Lauterbach對此表示懷疑,他擔心這項功能是否會成為數據中心的一大賣點。他說道:“雖然很多數據中心都在談論節約能源,但歸根結底,他們并不在乎,他們更想要性能?!?/p>
相關報道:
https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier