操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    文內容非商業(yè)用途可無需授權轉載,請務必注明作者、微博ID:唐僧_huangliang,以便更好地與讀者互動。

    在《從260核異構申威看HPC Top500縮影》一文中,我給大家介紹過在最新的超算榜單上為國爭光的“神威太湖之光”。而在同一次大會上,Intel也正式發(fā)布了代號為Knights Landing的新一代Xeon Phi Processor x200(注意:不再是coprocessor/協(xié)處理器了)。兩種Xeon Phi x200:Omni-Path占用PCIe通道?

    我們知道此前的Xeon Phi(至強融核)協(xié)處理器家族包括3100、5100和7100系列,都是像GPU那樣通過PCIe x16插槽安裝在x86服務器上。Xeon Phi x100有板載內存(類似于NVIDIA/AMD的顯存),但訪問系統(tǒng)主內存就要繞道CPU的內存控制器,從而影響到效率。而在上圖中間的服務器節(jié)點里,我們已經看不到傳統(tǒng)的Xeon CPU,取而代之的就是“Bootable”(可獨立運行)的Xeon Phi Processor。左右兩邊是兩種不同的Xeon Phi x200,其中右邊的多伸出一個金手指,整合了Intel Omni-Path Fabric(OPA,又稱硅光互連)高速網絡。

    Xeon Phi 7200系列的核心數(shù)有64、68和72三種,主頻1.3-1.5GHz,擁有16GB高帶寬MCDRAM片上高速內存(類似于HBM、HCM),并支持最大384GB DDR4內存。Xeon Phi 7200的基礎功耗有215W和245W兩種,如果是結尾帶“F”支持Omni-Path的型號會增加15W Fabric功耗。

    這個照片應該是Intel的參考平臺,尺寸上大致符合2U 4節(jié)點的密度,在Xeon Phi Processor兩側有6個DDR4內存插槽。用紅圈標出的部分應該就是將Omni-Path網絡引出機箱的連接器件。

    至本文截稿之時,官網上我還沒找到關于Xeon Phi x200的詳細資料,不過早在去年底翻譯自國外的新聞中已經有過不錯的介紹。如上圖,“Self Boot Socket”的Knights Landing除了DDR4內存控制器之外,還可以提供36個PCIe Gen3 lane,感覺是移植了Xeon CPU的uncore部分設計。不過,提供2個Omni-Path 100Gb/s網口的型號就少了2個PCIe x16,讓我覺得這一代產品的片上OPA互連控制器走的還是PCIe?最右邊的PCIe插卡形態(tài),去掉了DDR內存通道,能不能不要那個PCH南橋呢?72核暗藏4個?回想當年的Atom/P54C集群

    Xeon-phi-processor-block-diagram——來自Intel網站上下兩張圖可以結合起來看。我數(shù)了一下紅色Processing Tile的數(shù)量是38個,如此則該架構設計應該支持最多76個核心,目前限制在72個可能是為了保證良品率,或者功耗考慮?

    根據(jù)右邊的解釋,每個“tile”中有2個Core共享1MB L2 Cache,每個Core支持4線程并包含2個AVX-512矢量單元(浮點計算應該就是靠它來進行的)。Intel還提到了這些Core是基于Atom處理器內核,記得之前還有一種說法是P54C。P54C即當年Intel Pentium 75-166的核心代號,1997年我自己的第一臺電腦用的就是奔騰133。

    在2011年春季北京IDF上,我曾經看到這套由微服務器廠商SeaMicro打造的高密度系統(tǒng),展板上介紹在10U機箱內容納了256個雙核Atom,當時負責展臺的朋友也提到了P54C。不知大家有沒有覺得神威太湖之光的節(jié)點布局有點像這個?

    我猜測這個系統(tǒng)很早就開始用于預研今天的Xeon Phi Processor,當然此時它還談不上芯片集成度和成本效益。從照片中看每顆Atom旁邊應該都有一顆南橋(當時還不是SoC),內存等可能在PCB背面,4顆印著SeaMicro的芯片估計是用于互連。不同的AVX Boost頻率與整數(shù)/浮點單元配比

    撰寫上一篇《一項Xeon E5-2600 v4測試數(shù)據(jù)的背后》的過程中,在Dell的Solutions Performance Analysis文檔中我看到了以上規(guī)格表,其中有non-AVX和AVX單元不同的TurboBoost超頻頻率。讓我們放大來看一下:

    對于所有核心一起工作時的TurboBoost,non-AVX的頻率比AVX要高,而最大(少數(shù)核心工作)TurboBoost頻率有些型號的CPU也存在差別。

    上圖來自Intel資料,描述了Xeon E5v4(Broadwell)的一點改進。在此之前如果AVX和non-AVX負載在不同Core上混合運行,只能統(tǒng)一跑在兩者中較低的TurboBoost頻率上。而在Xeon E5v4上,則運行AVX的Core頻率不會降低到其它Core的TurboBoost水平。我有個理解不知是否準確:由于用途的原因,整數(shù)/浮點單元的設計偏重與配比是Xeon Phi Processor與Xeon CPU的重要區(qū)別。至于Intel為什么沒有進一步像申威26010那樣“將MPE(管理單元)減少到4個來搭配256個CPE(計算單元)”?我覺得是考慮到通用性,畢竟Xeon Phi仍屬于x86指令集的一個擴展。服務器平臺——SuperMicro目前正式發(fā)布支持Xeon Phi Processor x200服務器產品的公司還不多,其中包括SuperMicro的主板和準系統(tǒng)(就是加個塔式機箱),或許只是先出個通用平臺還沒有太多特點。

    SuperMicro K1SPA/E (-T) 主板示意圖,可以看到“巨大”的LGA-3647 CPU插座,據(jù)了解下一代Xeon E5可能也會用這個Socket。

    上面是SuperMicro這款主板的結構圖。涉及PCH 612的部分與傳統(tǒng)Xeon服務器并沒有明顯的不同;除了內存通道之外,從處理器引出的PCIe x16 Gen3插槽也許不再支持拆分成x8或者x4,因為Xeon Phi的定位就是HPC,除了高速網絡互連應該啥也不缺了。Dell PowerEdge C6320p:可選IB和Omni-Path

    戴爾的這款PowerEdge C6320p,可以理解為是在2U 4節(jié)點機箱基礎上將C6320 Xeon E5計算節(jié)點換成了Xeon Phi Processor節(jié)點。它比較接近前面我們列出的Intel參考平臺,具備計算密度并適合大規(guī)模部署。

    可能是由于初版資料,規(guī)格表中Xeon Phi Processor 72XX不支持的QPI還沒來得及修改徹底。C6320p有幾種硬盤/閃存支持選項,提供戴爾統(tǒng)一的iDRAC8服務器管理,聽說可以直接安裝Red Hat企業(yè)版Linux,具體注意事項有待后續(xù)確認。不過為了發(fā)揮AVX-512計算單元的能力,還是需要運行相應的編譯好的程序。關于集成單端口Mellanox ConnectX-4 100GbE網卡這個可選項,為什么不是InfiniBand EDR呢?其實該公司近幾年對以太網的支持也不錯,可以在同樣的硬件上實現(xiàn)兩種網絡支持,比如EoIB這樣的方式。

    上圖來自戴爾網站,可見這個100Gb網口應該是支持IB的。據(jù)了解PowerEdge C6320p也做好了支持Omni-Path的準備,除了現(xiàn)在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe網卡之外,等今年四季度Xeon Phi Processor 72xxF推出之后,像Intel參考平臺中那樣將Omni-Path引出機箱的連接器件也可以使用。InfiniBand和Omni-Path誰會勝出?自從Intel收購了QLogic IB業(yè)務和Cray的部分HPC互連技術之后,就開始醞釀著后續(xù)的戰(zhàn)略。他們認為IB網絡的成本在HPC系統(tǒng)中占比過高,在用戶投資不變的情況下會影響到Intel CPU等的出貨量。不過問題是,Intel到底是想賣CPU送網絡呢,還是將CPU賣得更貴?來自Mellanox的反擊大概是這樣說的:“Omni-Path缺乏像IB那樣的硬件卸載能力,使網絡對CPU的占用率提高,變相導致需要買更高端的CPU,而從用戶TCO的角度來看反而不劃算。”下面是他們給出的一些對比數(shù)字。

    以上圖表僅供參考,因為在Intel的宣傳資料中您很可能會看到另外一些不同的測試數(shù)字。

    True Scale就是當初QLogic的40Gb/s InfiniBand產品線,可以看出100Gb/s的Intel Omni-Path在端口延時、發(fā)包速率上的優(yōu)勢。既然是在IB技術上發(fā)展而來,Omni-Path可能需要一個成熟的過程,但我不認為有太大的困難。

    Intel還列出了交換機方面的一些優(yōu)勢。比如Edge(邊緣)交換機48口比IB的36口多,服務器節(jié)點可以不通過邊緣交換機直連Director(導向器)等。關于HPC網絡方面的最終戰(zhàn)局,我覺得要看Intel Omni-Path怎么個賣法。如果未來某一代CPU/Xeon Phi Processor無論你用不用全都集成的話…...

    注:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。進一步交流技術,可以加我的QQ/微信:490834312。如果您想在這個公眾號上分享自己的技術干貨,也歡迎聯(lián)系我:)

    尊重知識,轉載時請保留全文。感謝您的閱讀和支持!《企業(yè)存儲技術》微信公眾號:huangliang_storage

    原文鏈接:http://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649774451&idx=1&sn=dc6318cd0815d31dad039963087776c4#rd

    周末寫了《雙Xeon SP只用一個風扇?Precision7920工作站散熱設計解析》,還欠個下篇這次補上。

    在Dell Precision 5820 Tower工作站前面板上,增加了2個Type-C USB 3接口和1個SD卡插槽,另外兩款7820和7920 Tower也是如此。我能說這是從筆記本上學來的嗎?

    Type-C的好處大家都清楚,除了不會插反之外,應該就是加強了供電。而對于SD存儲卡,畢竟圖形工作站面對的一大用戶群體是影視工作者,從相機/攝像機中拷東西不用讀卡器還是方便了吧。

    PS. 我上次出差就是帶了相機忘帶讀卡器,而新?lián)Q的筆記本沒了SD讀卡器還沒習慣…

    專為工作站而生?Xeon W延續(xù)E5-1600定位

    5820 Tower是單路CPU工作站,散熱導風罩尺寸比7920Tower小了不少。這一代支持的CPU是LGA-2066的Intel Xeon W(代號Skylake-W,W應該就是工作站的縮寫),用于替代之前的E5-1600系列。

    Xeon W最大公布有18核的規(guī)格,目前供貨的只到10核。回顧之前的XeonE5-16xx,與雙路E5-26xx都是LGA-2011封裝,比Core i7和Xeon E3家族支持更多內存通道和PCIe lane。從技術上講,單路Xeon E5-16xx機型(如:Precision T5810)很適合需要高帶寬、有時還加多GPU,而不一定都是重度多線程處理的工作站應用環(huán)境,其低端型號的頻率又比雙路Xeon E5/SP明顯提高。

    如今的Xeon W相當于Core i9的專業(yè)版本,沒有追趕Xeon SP LGA-3647的步伐。4通道內存、2個全速PCIe 3.0 x16仍然保持對LGA-1155Core、Xeon E3系列的優(yōu)勢。相對于桌面版本,Xeon W沒有精簡掉2個FMA的AVX-512支持,支持RDIMM和LR-DIMM內存所以最大容量可達512GB(Core i9只支持UDIMM,最大128GB)。

    擴展閱讀:《從全系列性能測試看Xeon SP:SPEC、Linpack、STREAM、SAP》

    Precision 5820 Tower的CPU散熱器為主動式,有點像我在上一篇中列出的T5810。這種設計使機箱后端那2個風扇不再有必要,因為前面板的2個風扇也向后移到主板旁邊——距離CPU更近了(這里和7820 Tower機箱應該有共用的設計,請接著往下看)。

    這臺5820 Tower工作站樣機上還配了一塊特別的網卡,因為它不是普通的1GbE或者10GbE,而是一塊5Gb/s以太網卡。說實話我對此也不夠熟悉,早先聽說帶有這種接口的網絡交換設備,多是些高速無線接入(路由)之類吧。

    Precision 7820 Tower:第二個CPU插哪里?

    上面照片是7820 Tower工作站的前面板,同樣支持硬盤/SSD熱插拔。Dell新一代工作站的官方命名規(guī)則有小調整,而工作人員看來還是習慣了以前的叫法,如T7820:)

    2.5 / 3.5英寸的轉換托架,支持SATA SSD必不可少,另外現(xiàn)在的10K、15K高轉速硬盤也都是小尺寸。

    7820 Tower工作站的CPU散熱器為被動式,它也像雙路7920Tower那樣在出風口配置了2個排氣風扇。

    當我拆開7820 Tower機箱時多少有點發(fā)懵,本身結構上接近5820 Tower倒是不奇怪,這臺CPU只標配了一個Xeon SP——而我沒找到第二個CPU的插座??

    Dell Precision T7820

    由于7820 Tower新品的詳細資料還沒拿到,我找出上一代的T7810做下對比,如上圖,可以看到2顆CPU的位置。由于這款工作站的定位低于79x0,機箱尺寸較小并不強調擴展性,主板空間有限,每顆CPU只設計了4個內存插槽,正好把內存控制器的通道用滿。

    現(xiàn)場咨詢了Dell Precision工作站產品經理,得知7820 Tower的第2顆CPU需要再搭一塊板——上面照片紅圈里就是支持這個用的QPI連接器。不知您還記得四路R930服務器上,載有一半CPU和內存的PEM板嗎?(參見:《DellPowerEdge R940解析:四路頂配服務器維護平民化》)

    別忘了機箱側板上還有示意圖,結合這個一看大家就比較清楚了。設計這塊“提升板”的目的,可能是因為Xeon SP這一代CPU Socket尺寸變大,內存通道數(shù)增加(怎么也得把每CPU 6通道都用上吧),為了不增加主板尺寸,7820 Tower將CPU1固定在CPU0的上方。

    USB 3.1和3.0一回事?Gen2才是10Gb/s

    最后再帶大家看一個比較特色的卡。從上面照片來看,應該是1個Type C USB 3、1個Type C USB 3/DP,加上1個標準DP。這里DisplayPort的用法我還不是特別確定,而USB有必要說一下。

    文字資料截自《Precision-5820-Tower-Spec-Sheet》,里面提到這塊卡是USB 3.1(Gen 2)10Gb/s的速率。另外用于連接高速外設的Thunderbolt(雷電)3 PCIe卡也在擴展選件列表里。

    估計是主控的原因,這塊USB 3.1擴展卡只用了PCIe 3 x1。雖然與40Gb/s速率的雷電接口相比差距較大,但比主板PCH芯片組原生的USB 3 5Gb/s還是快了大約1倍。

    注:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術干貨,也歡迎聯(lián)系我:)

    尊重知識,轉載時請保留全文。感謝您的閱讀和支持!

    原文鏈接:https://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649776781&idx=1&sn=22863a69084cb98059f9552dbc965a00&chksm=837703d0b4008ac664120e171af33b03a1512d12eaac5626d0340f18bd1b072ff9077f6633b3#rd

    于Intel最新一代高端工作站CPU和平臺,我已經在《單路為王?Intel Xeon W-3400、2400工作站平臺預覽》和《Dell Precision 7960 Tower工作站:模塊化的傳承與提升》兩篇中有過介紹。

    最近這幾年,我寫過顯卡、SSD存儲方面的一些評測,但確實好久沒有全面系統(tǒng)地做過CPU性能測試。我在日常工作中也會遇到一些性能分析的任務,但主要是幫助客戶把工作站等系統(tǒng)在實際應用中發(fā)揮出正常水平,而不只是為了跑分。比如《神油補丁測試:老版SOLIDWORKS + RTX A/T系列顯卡性能問題解決》,就是出于解決問題而搞出來的。

    本文主要目的

    -了解最新一代Xeon W-3400(4代)性能水平,對比之前的2代Xeon Scalable x2xx平臺雙CPU工作站,在各種計算應用中性能提升如何?

    - 雙CPU比單CPU能快多少?觀察在不同應用中的性能差距;

    - 結合各行業(yè)領域特點,分析多核CPU性能擴展瓶頸——在一些應用中使用多進程+多線程的意義。

    位于Precision 7960 Tower工作站上的LGA-4677 CPU插座,我測試的Intel Xeon w9-3495X就是安裝在這上面。

    作為Intel Xeon w-3400系列中的頂級型號,w9-3495X處理器擁有56個物理核心,112個框框(邏輯線程)。

    以上是我測試使用的Dell Precision 7960 Tower工作站,運行本文的基準測試部分時,只安裝了一塊NVIDIA RTX A4000專業(yè)顯卡。后續(xù)還想給大家分享更多行業(yè)應用測試的結果,有些會用到多GPU,比如4K/8K視頻編輯調色等。

    細心的朋友可能發(fā)現(xiàn)了,我搭配測試的顯卡并不是最新、最高端的型號,確實我手頭沒有RTX 6000 Ada、RTX A6000那些。不過,我也要感謝能暫時擁有的這些配置,畢竟本次測試的重點是對比CPU性能,更確切地說——主要是多核性能

    當我最初有2顆16核的Xeon Gold 6242 CPU作為上一代參照平臺時,曾經希望能借來1顆Xeon w9-3475X(36核)或者w7-3465X(28核)用于對比;而最終卻拿到了Xeon w9-3495X,要是能再有2顆Xeon Gold 6258R就更好了:)

    如上表,2顆Xeon Gold 6242 CPU一共32核,TDP功耗加在一起是300W,其性能低于56核、350W的Xeon w9-3495X是正常的——在大家接下來看測試結果之前我有必要說明這一點。另外,我簡單依照核心數(shù)、基礎頻率的比例關系,假定Xeon 6242的性能水平為100%,算出一個紙面上的6258R理想多核性能比率168%(28核相對16核)。但大家也知道,在不少的工作站應用中,多線程性能并不會隨著CPU核心的增加而完全線性提升,所以這偏高的估值,也只是作為一個條件有限情況下的參考而已。

    測試平臺

    如上表,我將要對比Xeon Gold 6242單CPU、雙CPU和Xeon w9-3495X三款配置的性能。

    受限于手頭的硬件,我在Precision 7960工作站上配置了4通道共64GB DDR5-4800內存(滿配支持8通道);于是我在上一代Precision 7920上使用了8條8GB DDR4內存,雙路時每顆CPU對應4個DIMM通道;而在單Xeon Gold 6242 CPU時,這8條內存我是按Dell工作站手冊的建議來安裝的(如下圖,保持64GB總容量不變)。

    注:理論上看可能因為沒有達到最高配置而影響性能發(fā)揮,但實際情況中許多客戶也不是各方面都達到最高滿配的,所以一樣有參考價值。

    M.2 NVMe SSD我在新老機型上使用的都是1TB,型號雖有不同——但即使配置相同的新型號固態(tài)盤性能也不一樣。因為PCIe 4.0 SSD在新平臺能充分發(fā)揮,而老機型上只能運行在PCIe 3.0帶寬下。我在下文中列出的測試項目會盡量避開SSD、顯卡這些對CPU性能的干擾。

    當我們在Precison 7920 Tower工作站上配置單CPU+8條內存時,手冊里會建議先插滿6個通道,然后再加2條(圖片點開后可放大查看,以下同

    如上圖,從2007年開始推出的LGA-3647 Xeon每顆CPU是6通道內存控制器,在插8條內存時BIOS里也能顯示為6通道(但此時并不是完全對稱的)。

    工作站綜合BenchMark、測試細節(jié)解析

    本文使用的測試軟件SPECworkstation 3.1,幾乎是工作站領域具備權威性的綜合BenchMark唯一選擇。我已經有20多年使用SPECviewperf(針對工作站顯卡應用)的經驗——最近兩次關于該測試工具的更新討論如下:

    SPECviewperf 2020基準測試更新:Quadro專業(yè)顯卡再排座次

    《圖形工作站專業(yè)顯卡測試:SPECviewperf 12》

    關于測試整機的SPECworkstation 3.1,其前身為SPECwpc。我在《Optane SSD 900P評測(2):比拼4x閃存NVMe RAID0》曾經用于測試工作站的存儲子系統(tǒng),并給出過這樣的評價——“其綜合成績受磁盤I/O子系統(tǒng)性能影響較大,因此看www.spec.org網站公布的測試結果,有點像拿SSD來輔助“跑分”的比賽,看誰的盤快、看誰盤配的更多:)

    所以,我這次會排除其中的圖形(源自SPECviewperf)和SSD測試項目,只對比CPU。

    如上圖,在SPECworkstation 3.1測試中涵蓋了媒體和娛樂、產品研發(fā)、生命科學、能源、金融服務等行業(yè)的應用,具體的CPU測試負載項目我也用紅圈標出來了。

    上面是一份SPECworkstation測試結果的片段截圖,本文主要挑每個行業(yè)領域中的CPU測試項目(CPU綜合得分、具體單項得分)進行對比。

    我想說接下來這個表可能才是本文的核心,甚至我為此花的精力比后面那些性能數(shù)據(jù)要多,不知您是否認同?

    上表中部分描述參考了Standard Performance Evaluation Corporation網站上的介紹 https://gwpg.spec.org/benchmarks/benchmark/specworkstation-3_1/

    而我在這里加入自己花時間研究、分析的重點,是每一項測試的CPU負載類型:單線程、多線程,還是多線程+多進程

    - 通用操作類別中的測試,以單線程為主。7zip壓縮看上去用到了多線程,實際效果請看后面對比;Python測試中確實包含一個多線程的項目;

    - 媒體和娛樂(DCC)金融服務計算,還有能源行業(yè)中的Convolution(卷積向量化)測試,都是單一進程多線程的任務。按照我的經驗,圖像渲染、視頻編碼這些應用,相對適合發(fā)揮出超多核CPU的性能(但不是每一次“拍腦袋”都會準?)所以才要看實際測試結果。

    -產品研發(fā)(CAE)生命科學,以及能源行業(yè)的大多數(shù)測試項目,在SPECworkstation基準測試中都是采用多進程+多線程來運行的。默認設置為每個應用進程調用16線程,相當于超過8核16線程的CPU,應該就會并行跑多個進程來發(fā)揮處理器的潛力。

    正是因為部分應用的特點,在單一進程調用線程數(shù)過多時效率不夠好,所以就借助高性能計算的思想,把任務拆分運行。我看到SPECworkstation會把Microsoft HPC Pack組件也裝上,里面有些mpi(Message Passing Interface)的東西,在部分測試運行時會調用。以2顆16核的Xeon 6242 CPU為例,如果能優(yōu)化地把每2個進程分別運行在一顆物理CPU上,應該還能規(guī)避NUMA(非一致性內存訪問)的性能影響。

    制造業(yè)中的CAD(計算機輔助設計),其中許多三維圖形操作都是單線程,總體上只能發(fā)揮出1-2個CPU核心;而產品研發(fā)(CAE)才是多核CPU的用武之地,比如本次測試中包含的結構有限元分析、流體力學計算

    SPECworkstation的CPU測試集里面多為開源軟件,或者免費公開的BenchMark子項目;相比之下,ANSYS(含F(xiàn)luent)、Altair、MSC等幾大商業(yè)CAE軟件巨頭,他們對新硬件(包括超多核CPU)的優(yōu)化和發(fā)揮通常更好一些,所以本文只是提供一個參考。

    - 生命科學行業(yè),本次測試主要包含分子動力學(用于制藥等領域)、醫(yī)療影像處理計算兩部分。

    - 能源行業(yè),包括一部分地震數(shù)據(jù)處理相關的。“人造地震波”并收集數(shù)據(jù)進行解釋的目的,是為了分析地質結構,探測地下的油氣資源。

    在此我也列舉幾家常用的地震資料解釋平臺(商業(yè)軟件):主要有哈里伯頓(Halliburton)的LandMark,斯倫貝謝(Schlumberger)的GeoFrame,還有一部分在用帕拉代姆(Paradigm)的Epos等。

    測試結果:如何看待個別的跑分異常

    本次SPECworkstation測試的結果,我以性能得分比率的形式展現(xiàn)給大家,將2顆Xeon Gold 6242 CPU的性能當作“1”,再列出單Xeon 6242、Xeon w9-3495X得分的倍數(shù)進行對比。

    我沒有做一些特殊優(yōu)化,不列出BenchMark基準測試具體結果是為了避免不必要的麻煩。不過,我承諾在后續(xù)的具體應用軟件測試中,會直接呈現(xiàn)結果數(shù)值

    首先看各領域的CPU綜合得分:

    -“通用操作”以單線程測試為主,所以單/雙路、不同型號CPU拉不開差距比較好理解;

    -余下五大行業(yè),單/雙Xeon 6242 CPU的差別都比較明顯,有些領域2顆CPU比1顆都接近翻倍了;只是媒體和娛樂(DCC)反而差距相對小,估計與具體測試項目有關。

    -Xeon w9-3495X 56核相對于2顆16核的提升,除了生命科學一項的綜合得分有點不夠理想(待進一步分析),另外幾個行業(yè)都達到了1.84-1.99倍的水平,大家還記得我在前面列出的那個168%的Xeon 6258R理想值(按核心數(shù)線性估算)嗎?

    以上綜合得分,對硬件制造商、發(fā)燒友和分析師是有用的;但具體到運行某一種或幾種軟件的工作站用戶來說,每個應用軟件的測試表現(xiàn),才有更多的參考價值。下面我們來看單項測試:

    在媒體和娛樂的3項測試中,說實話Blender渲染讓我感覺有點意外?單顆Xeon 6242就能達到雙CPU性能的89%,而56核的Xeon w9-3495X也只是跑到了2顆16核的1.33倍。該測試生成的2張渲染圖如下:

    作為一個整體上有些復雜的綜合性BenchMark,SPECworkstation的更新相對不快。我之前在《讓45W TDP CPU穩(wěn)跑75W的秘密:Blender渲染測試(含Optix去噪點)》等2篇評測中玩過Blender,帶著這次的疑問,我想后續(xù)進一步用較新版本軟件實際測試再來次評估,看該軟件是否對較多的CPU核心數(shù)支持不夠好?

    CAE領域的3項測試表現(xiàn)也有些不同,Calculix和WPCcfd從單CPU到雙CPU的提升幅度都很理想;但rodiniaCFD流體力學測試則有些相反——配2顆CPU在這里顯得不劃算,而單56核Xeon w9-3495X卻能跑到2顆16核CPU性能的3.43倍

    生命科學部分,lammps和rodiniaLifeSci測試看上去都挺理想;只有namd分子動力學這一項,Xeon w9-3495X在我的測試中表現(xiàn)有些不正常?這應該也是導致該CPU在前面的生命科學總分不佳的原因。但我去看了Intel提供的BenchMark參考結果(在本文結尾處有列出),同一部分測試的情況不像我這樣。

    由于時間有限,這將作為本文中為數(shù)不多的異常結果,留待將來有時間再分析。這可能與測試工作站的配置,或者環(huán)境設置有關

    金融服務計算部分,包括Monte Carlo(蒙特卡洛)概率模擬、Black-Scholes期權定價模型和Binomial二項式期權定價模型。無論雙CPU帶來的提升,還是56核Xeon w9-3495X的表現(xiàn)都令人滿意。

    盡管我是每項測試運行3遍取平均值,還是遇到了個別的隨機性誤差——有的測試單CPU性能只跑到了雙CPU不到一半的水平。

    SPECworkstation能源部分的CPU測試包括Convolution 卷積向量化、FFTW(快速傅里葉變換)、Kirchhoff基爾霍夫方程、piosson(泊松)和 srmp(表面相關倍數(shù)預測)5項,Xeon w9-3495X的性能分別達到2顆Xeon 6242的1.3-2.47倍。

    前面我提到過,通用操作部分由于主要是單線程測試,所以只是包含有一項Multithreaded Matrix的Python 3.6測試能反映出核心數(shù)的不同。從表面上看7zip在壓縮時也能把CPU跑滿,但卻沒有反映到SPECworkstation這項具體測試的得分上,可能在執(zhí)行或者結果統(tǒng)計上還有處理不周之處?

    octave科學計算,Xeon w9-3495X的表現(xiàn)不夠好,測試中遇到少數(shù)比例的這種情況是正常的。畢竟新的硬件需要有些軟件做相應的適配優(yōu)化,才能發(fā)揮出最高的效率

    最后我也分享下3項GPU計算的結果。這部分實際“干活”的是NVIDIA A4000顯卡。(擴展閱讀:《GPU渲染/光線追蹤測試:NVIDIA RTX A4000 vs. GeForce 3070》)

    不過在caffe和Folding@home這2項測試中,我也看到了不同測試平臺的影響。與最新的Xeon w9-3495X + Dell Precision 7960工作站相比,Xeon 6242 CPU + 7920主機只能讓PCIe 4.0顯卡跑在3.0帶寬下,但具體到這里影響GPU發(fā)揮的,可能是CPU的單核性能——因為我觀察到2個OpenCL計算任務除了GPU壓力大之外,同時也有一個CPU線程也是跑滿的。

    由于SPECworkstation需要同時照顧AMD顯卡,所以采用了OpenCL而不是CUDA,這樣與N卡的實際工作環(huán)境應該有些不同。不過也算給大家一點參考吧:GPU計算系統(tǒng)搭配的CPU主頻最好也不要太低注:不見得適用于所有情況)。

    小結:Xeon W-3400達到預期、多核性能優(yōu)化要點

    由于我手頭沒有2顆28核的Xeon Gold 6258R,所以給大家出示下Intel的宣傳數(shù)據(jù)——總體上看與我的測試結果基本相符,這次也算是做了個驗證吧。

    如上圖,SPECworkstation基準測試解釋了我在以前文章中提出的一個問題,也反映出的一個優(yōu)化要點:在有些行業(yè)的一部分應用軟件,需要用到多進程并發(fā)運行,才能比較高效地發(fā)揮出超多核CPU工作站的效率。具體值得參考的細節(jié)都在文中,我就不再重復了。

    Xeon W-3400的價值并不只在性能方面,包括PCIe 5.0擴展性等,都是超出上一代雙路工作站的。像以前那些為了激活更多PCIe插槽從而不得不加第二顆CPU的客戶,可以不用再因此而糾結了。

    本輪測試始于CPU,而現(xiàn)代工作站又不止是CPU的舞臺,所以后續(xù)我會結合具體應用加入關于GPU的討論。接下來的測試計劃我也在前面也透露過一些,敬請期待:)


    注:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術干貨,也歡迎聯(lián)系我:)

    尊重知識,轉載時請保留全文。感謝您的閱讀和支持!

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有