亚洲欧美在线综合视频,亚洲最大的黄色在线观看,蜜臀av一区二区三区人妻

欄目導航

新聞資訊

新聞資訊

文內容非商業(yè)用途可無需授權轉載，請務必注明作者、微博ID：唐僧_huangliang，以便更好地與讀者互動。

在《從260核異構申威看HPC Top500縮影》一文中，我給大家介紹過在最新的超算榜單上為國爭光的“神威太湖之光”。而在同一次大會上，Intel也正式發(fā)布了代號為Knights Landing的新一代Xeon Phi Processor x200（注意：不再是coprocessor/協(xié)處理器了）。兩種Xeon Phi x200：Omni-Path占用PCIe通道？

我們知道此前的Xeon Phi（至強融核）協(xié)處理器家族包括3100、5100和7100系列，都是像GPU那樣通過PCIe x16插槽安裝在x86服務器上。Xeon Phi x100有板載內存（類似于NVIDIA/AMD的顯存），但訪問系統(tǒng)主內存就要繞道CPU的內存控制器，從而影響到效率。而在上圖中間的服務器節(jié)點里，我們已經看不到傳統(tǒng)的Xeon CPU，取而代之的就是“Bootable”（可獨立運行）的Xeon Phi Processor。左右兩邊是兩種不同的Xeon Phi x200，其中右邊的多伸出一個金手指，整合了Intel Omni-Path Fabric（OPA，又稱硅光互連）高速網絡。

Xeon Phi 7200系列的核心數(shù)有64、68和72三種，主頻1.3-1.5GHz，擁有16GB高帶寬MCDRAM片上高速內存（類似于HBM、HCM），并支持最大384GB DDR4內存。Xeon Phi 7200的基礎功耗有215W和245W兩種，如果是結尾帶“F”支持Omni-Path的型號會增加15W Fabric功耗。

這個照片應該是Intel的參考平臺，尺寸上大致符合2U 4節(jié)點的密度，在Xeon Phi Processor兩側有6個DDR4內存插槽。用紅圈標出的部分應該就是將Omni-Path網絡引出機箱的連接器件。

至本文截稿之時，官網上我還沒找到關于Xeon Phi x200的詳細資料，不過早在去年底翻譯自國外的新聞中已經有過不錯的介紹。如上圖，“Self Boot Socket”的Knights Landing除了DDR4內存控制器之外，還可以提供36個PCIe Gen3 lane，感覺是移植了Xeon CPU的uncore部分設計。不過，提供2個Omni-Path 100Gb/s網口的型號就少了2個PCIe x16，讓我覺得這一代產品的片上OPA互連控制器走的還是PCIe？最右邊的PCIe插卡形態(tài)，去掉了DDR內存通道，能不能不要那個PCH南橋呢？72核暗藏4個？回想當年的Atom/P54C集群

Xeon-phi-processor-block-diagram——來自Intel網站上下兩張圖可以結合起來看。我數(shù)了一下紅色Processing Tile的數(shù)量是38個，如此則該架構設計應該支持最多76個核心，目前限制在72個可能是為了保證良品率，或者功耗考慮？

根據(jù)右邊的解釋，每個“tile”中有2個Core共享1MB L2 Cache，每個Core支持4線程并包含2個AVX-512矢量單元（浮點計算應該就是靠它來進行的）。Intel還提到了這些Core是基于Atom處理器內核，記得之前還有一種說法是P54C。P54C即當年Intel Pentium 75-166的核心代號，1997年我自己的第一臺電腦用的就是奔騰133。

在2011年春季北京IDF上，我曾經看到這套由微服務器廠商SeaMicro打造的高密度系統(tǒng)，展板上介紹在10U機箱內容納了256個雙核Atom，當時負責展臺的朋友也提到了P54C。不知大家有沒有覺得神威太湖之光的節(jié)點布局有點像這個？

我猜測這個系統(tǒng)很早就開始用于預研今天的Xeon Phi Processor，當然此時它還談不上芯片集成度和成本效益。從照片中看每顆Atom旁邊應該都有一顆南橋（當時還不是SoC），內存等可能在PCB背面，4顆印著SeaMicro的芯片估計是用于互連。不同的AVX Boost頻率與整數(shù)/浮點單元配比

撰寫上一篇《一項Xeon E5-2600 v4測試數(shù)據(jù)的背后》的過程中，在Dell的Solutions Performance Analysis文檔中我看到了以上規(guī)格表，其中有non-AVX和AVX單元不同的TurboBoost超頻頻率。讓我們放大來看一下：

對于所有核心一起工作時的TurboBoost，non-AVX的頻率比AVX要高，而最大（少數(shù)核心工作）TurboBoost頻率有些型號的CPU也存在差別。

上圖來自Intel資料，描述了Xeon E5v4（Broadwell）的一點改進。在此之前如果AVX和non-AVX負載在不同Core上混合運行，只能統(tǒng)一跑在兩者中較低的TurboBoost頻率上。而在Xeon E5v4上，則運行AVX的Core頻率不會降低到其它Core的TurboBoost水平。我有個理解不知是否準確：由于用途的原因，整數(shù)/浮點單元的設計偏重與配比是Xeon Phi Processor與Xeon CPU的重要區(qū)別。至于Intel為什么沒有進一步像申威26010那樣“將MPE（管理單元）減少到4個來搭配256個CPE（計算單元）”？我覺得是考慮到通用性，畢竟Xeon Phi仍屬于x86指令集的一個擴展。服務器平臺——SuperMicro目前正式發(fā)布支持Xeon Phi Processor x200服務器產品的公司還不多，其中包括SuperMicro的主板和準系統(tǒng)（就是加個塔式機箱），或許只是先出個通用平臺還沒有太多特點。

SuperMicro K1SPA/E (-T) 主板示意圖，可以看到“巨大”的LGA-3647 CPU插座，據(jù)了解下一代Xeon E5可能也會用這個Socket。

上面是SuperMicro這款主板的結構圖。涉及PCH 612的部分與傳統(tǒng)Xeon服務器并沒有明顯的不同；除了內存通道之外，從處理器引出的PCIe x16 Gen3插槽也許不再支持拆分成x8或者x4，因為Xeon Phi的定位就是HPC，除了高速網絡互連應該啥也不缺了。Dell PowerEdge C6320p：可選IB和Omni-Path

戴爾的這款PowerEdge C6320p，可以理解為是在2U 4節(jié)點機箱基礎上將C6320 Xeon E5計算節(jié)點換成了Xeon Phi Processor節(jié)點。它比較接近前面我們列出的Intel參考平臺，具備計算密度并適合大規(guī)模部署。

可能是由于初版資料，規(guī)格表中Xeon Phi Processor 72XX不支持的QPI還沒來得及修改徹底。C6320p有幾種硬盤/閃存支持選項，提供戴爾統(tǒng)一的iDRAC8服務器管理，聽說可以直接安裝Red Hat企業(yè)版Linux，具體注意事項有待后續(xù)確認。不過為了發(fā)揮AVX-512計算單元的能力，還是需要運行相應的編譯好的程序。關于集成單端口Mellanox ConnectX-4 100GbE網卡這個可選項，為什么不是InfiniBand EDR呢？其實該公司近幾年對以太網的支持也不錯，可以在同樣的硬件上實現(xiàn)兩種網絡支持，比如EoIB這樣的方式。

上圖來自戴爾網站，可見這個100Gb網口應該是支持IB的。據(jù)了解PowerEdge C6320p也做好了支持Omni-Path的準備，除了現(xiàn)在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe網卡之外，等今年四季度Xeon Phi Processor 72xxF推出之后，像Intel參考平臺中那樣將Omni-Path引出機箱的連接器件也可以使用。InfiniBand和Omni-Path誰會勝出？自從Intel收購了QLogic IB業(yè)務和Cray的部分HPC互連技術之后，就開始醞釀著后續(xù)的戰(zhàn)略。他們認為IB網絡的成本在HPC系統(tǒng)中占比過高，在用戶投資不變的情況下會影響到Intel CPU等的出貨量。不過問題是，Intel到底是想賣CPU送網絡呢，還是將CPU賣得更貴？來自Mellanox的反擊大概是這樣說的：“Omni-Path缺乏像IB那樣的硬件卸載能力，使網絡對CPU的占用率提高，變相導致需要買更高端的CPU，而從用戶TCO的角度來看反而不劃算。”下面是他們給出的一些對比數(shù)字。

以上圖表僅供參考，因為在Intel的宣傳資料中您很可能會看到另外一些不同的測試數(shù)字。

True Scale就是當初QLogic的40Gb/s InfiniBand產品線，可以看出100Gb/s的Intel Omni-Path在端口延時、發(fā)包速率上的優(yōu)勢。既然是在IB技術上發(fā)展而來，Omni-Path可能需要一個成熟的過程，但我不認為有太大的困難。

Intel還列出了交換機方面的一些優(yōu)勢。比如Edge（邊緣）交換機48口比IB的36口多，服務器節(jié)點可以不通過邊緣交換機直連Director（導向器）等。關于HPC網絡方面的最終戰(zhàn)局，我覺得要看Intel Omni-Path怎么個賣法。如果未來某一代CPU/Xeon Phi Processor無論你用不用全都集成的話…...

注：本文只代表作者個人觀點，與任何組織機構無關，如有錯誤和不足之處歡迎在留言中批評指正。進一步交流技術，可以加我的QQ/微信：490834312。如果您想在這個公眾號上分享自己的技術干貨，也歡迎聯(lián)系我：）

尊重知識，轉載時請保留全文。感謝您的閱讀和支持！《企業(yè)存儲技術》微信公眾號：huangliang_storage

原文鏈接：http://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649774451&idx=1&sn=dc6318cd0815d31dad039963087776c4#rd

周末寫了《雙Xeon SP只用一個風扇？Precision7920工作站散熱設計解析》，還欠個下篇這次補上。

在Dell Precision 5820 Tower工作站前面板上，增加了2個Type-C USB 3接口和1個SD卡插槽，另外兩款7820和7920 Tower也是如此。我能說這是從筆記本上學來的嗎？

Type-C的好處大家都清楚，除了不會插反之外，應該就是加強了供電。而對于SD存儲卡，畢竟圖形工作站面對的一大用戶群體是影視工作者，從相機/攝像機中拷東西不用讀卡器還是方便了吧。

PS. 我上次出差就是帶了相機忘帶讀卡器，而新?lián)Q的筆記本沒了SD讀卡器還沒習慣…

專為工作站而生？Xeon W延續(xù)E5-1600定位

5820 Tower是單路CPU工作站，散熱導風罩尺寸比7920Tower小了不少。這一代支持的CPU是LGA-2066的Intel Xeon W（代號Skylake-W，W應該就是工作站的縮寫），用于替代之前的E5-1600系列。

Xeon W最大公布有18核的規(guī)格，目前供貨的只到10核。回顧之前的XeonE5-16xx，與雙路E5-26xx都是LGA-2011封裝，比Core i7和Xeon E3家族支持更多內存通道和PCIe lane。從技術上講，單路Xeon E5-16xx機型（如：Precision T5810）很適合需要高帶寬、有時還加多GPU，而不一定都是重度多線程處理的工作站應用環(huán)境，其低端型號的頻率又比雙路Xeon E5/SP明顯提高。

如今的Xeon W相當于Core i9的專業(yè)版本，沒有追趕Xeon SP LGA-3647的步伐。4通道內存、2個全速PCIe 3.0 x16仍然保持對LGA-1155Core、Xeon E3系列的優(yōu)勢。相對于桌面版本，Xeon W沒有精簡掉2個FMA的AVX-512支持，支持RDIMM和LR-DIMM內存所以最大容量可達512GB（Core i9只支持UDIMM，最大128GB）。

擴展閱讀：《從全系列性能測試看Xeon SP：SPEC、Linpack、STREAM、SAP》

Precision 5820 Tower的CPU散熱器為主動式，有點像我在上一篇中列出的T5810。這種設計使機箱后端那2個風扇不再有必要，因為前面板的2個風扇也向后移到主板旁邊——距離CPU更近了（這里和7820 Tower機箱應該有共用的設計，請接著往下看）。

這臺5820 Tower工作站樣機上還配了一塊特別的網卡，因為它不是普通的1GbE或者10GbE，而是一塊5Gb/s以太網卡。說實話我對此也不夠熟悉，早先聽說帶有這種接口的網絡交換設備，多是些高速無線接入（路由）之類吧。

Precision 7820 Tower：第二個CPU插哪里？

上面照片是7820 Tower工作站的前面板，同樣支持硬盤/SSD熱插拔。Dell新一代工作站的官方命名規(guī)則有小調整，而工作人員看來還是習慣了以前的叫法，如T7820：）

2.5 / 3.5英寸的轉換托架，支持SATA SSD必不可少，另外現(xiàn)在的10K、15K高轉速硬盤也都是小尺寸。

7820 Tower工作站的CPU散熱器為被動式，它也像雙路7920Tower那樣在出風口配置了2個排氣風扇。

當我拆開7820 Tower機箱時多少有點發(fā)懵，本身結構上接近5820 Tower倒是不奇怪，這臺CPU只標配了一個Xeon SP——而我沒找到第二個CPU的插座？？

Dell Precision T7820

由于7820 Tower新品的詳細資料還沒拿到，我找出上一代的T7810做下對比，如上圖，可以看到2顆CPU的位置。由于這款工作站的定位低于79x0，機箱尺寸較小并不強調擴展性，主板空間有限，每顆CPU只設計了4個內存插槽，正好把內存控制器的通道用滿。

現(xiàn)場咨詢了Dell Precision工作站產品經理，得知7820 Tower的第2顆CPU需要再搭一塊板——上面照片紅圈里就是支持這個用的QPI連接器。不知您還記得四路R930服務器上，載有一半CPU和內存的PEM板嗎？（參見：《DellPowerEdge R940解析：四路頂配服務器維護平民化》）

別忘了機箱側板上還有示意圖，結合這個一看大家就比較清楚了。設計這塊“提升板”的目的，可能是因為Xeon SP這一代CPU Socket尺寸變大，內存通道數(shù)增加（怎么也得把每CPU 6通道都用上吧），為了不增加主板尺寸，7820 Tower將CPU1固定在CPU0的上方。

USB 3.1和3.0一回事？Gen2才是10Gb/s

最后再帶大家看一個比較特色的卡。從上面照片來看，應該是1個Type C USB 3、1個Type C USB 3/DP，加上1個標準DP。這里DisplayPort的用法我還不是特別確定，而USB有必要說一下。

文字資料截自《Precision-5820-Tower-Spec-Sheet》，里面提到這塊卡是USB 3.1（Gen 2）10Gb/s的速率。另外用于連接高速外設的Thunderbolt（雷電）3 PCIe卡也在擴展選件列表里。

估計是主控的原因，這塊USB 3.1擴展卡只用了PCIe 3 x1。雖然與40Gb/s速率的雷電接口相比差距較大，但比主板PCH芯片組原生的USB 3 5Gb/s還是快了大約1倍。

注：本文只代表作者個人觀點，與任何組織機構無關，如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術干貨，也歡迎聯(lián)系我：）

尊重知識，轉載時請保留全文。感謝您的閱讀和支持！

原文鏈接：https://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649776781&idx=1&sn=22863a69084cb98059f9552dbc965a00&chksm=837703d0b4008ac664120e171af33b03a1512d12eaac5626d0340f18bd1b072ff9077f6633b3#rd

于Intel最新一代高端工作站CPU和平臺，我已經在《單路為王？Intel Xeon W-3400、2400工作站平臺預覽》和《Dell Precision 7960 Tower工作站：模塊化的傳承與提升》兩篇中有過介紹。

最近這幾年，我寫過顯卡、SSD存儲方面的一些評測，但確實好久沒有全面系統(tǒng)地做過CPU性能測試。我在日常工作中也會遇到一些性能分析的任務，但主要是幫助客戶把工作站等系統(tǒng)在實際應用中發(fā)揮出正常水平，而不只是為了跑分。比如《神油補丁測試：老版SOLIDWORKS + RTX A/T系列顯卡性能問題解決》，就是出于解決問題而搞出來的。

本文主要目的

-了解最新一代Xeon W-3400（4代）性能水平，對比之前的2代Xeon Scalable x2xx平臺雙CPU工作站，在各種計算應用中性能提升如何？

- 雙CPU比單CPU能快多少？觀察在不同應用中的性能差距；

- 結合各行業(yè)領域特點，分析多核CPU性能擴展瓶頸——在一些應用中使用多進程+多線程的意義。

位于Precision 7960 Tower工作站上的LGA-4677 CPU插座，我測試的Intel Xeon w9-3495X就是安裝在這上面。

作為Intel Xeon w-3400系列中的頂級型號，w9-3495X處理器擁有56個物理核心，112個框框（邏輯線程）。

以上是我測試使用的Dell Precision 7960 Tower工作站，運行本文的基準測試部分時，只安裝了一塊NVIDIA RTX A4000專業(yè)顯卡。后續(xù)還想給大家分享更多行業(yè)應用測試的結果，有些會用到多GPU，比如4K/8K視頻編輯調色等。

細心的朋友可能發(fā)現(xiàn)了，我搭配測試的顯卡并不是最新、最高端的型號，確實我手頭沒有RTX 6000 Ada、RTX A6000那些。不過，我也要感謝能暫時擁有的這些配置，畢竟本次測試的重點是對比CPU性能，更確切地說——主要是多核性能。

當我最初有2顆16核的Xeon Gold 6242 CPU作為上一代參照平臺時，曾經希望能借來1顆Xeon w9-3475X（36核）或者w7-3465X（28核）用于對比；而最終卻拿到了Xeon w9-3495X，要是能再有2顆Xeon Gold 6258R就更好了：）

如上表，2顆Xeon Gold 6242 CPU一共32核，TDP功耗加在一起是300W，其性能低于56核、350W的Xeon w9-3495X是正常的——在大家接下來看測試結果之前我有必要說明這一點。另外，我簡單依照核心數(shù)、基礎頻率的比例關系，假定Xeon 6242的性能水平為100%，算出一個紙面上的6258R理想多核性能比率168%（28核相對16核）。但大家也知道，在不少的工作站應用中，多線程性能并不會隨著CPU核心的增加而完全線性提升，所以這偏高的估值，也只是作為一個條件有限情況下的參考而已。

測試平臺

如上表，我將要對比Xeon Gold 6242單CPU、雙CPU和Xeon w9-3495X三款配置的性能。

受限于手頭的硬件，我在Precision 7960工作站上配置了4通道共64GB DDR5-4800內存（滿配支持8通道）；于是我在上一代Precision 7920上使用了8條8GB DDR4內存，雙路時每顆CPU對應4個DIMM通道；而在單Xeon Gold 6242 CPU時，這8條內存我是按Dell工作站手冊的建議來安裝的（如下圖，保持64GB總容量不變）。

注：理論上看可能因為沒有達到最高配置而影響性能發(fā)揮，但實際情況中許多客戶也不是各方面都達到最高滿配的，所以一樣有參考價值。

M.2 NVMe SSD我在新老機型上使用的都是1TB，型號雖有不同——但即使配置相同的新型號固態(tài)盤性能也不一樣。因為PCIe 4.0 SSD在新平臺能充分發(fā)揮，而老機型上只能運行在PCIe 3.0帶寬下。我在下文中列出的測試項目會盡量避開SSD、顯卡這些對CPU性能的干擾。

當我們在Precison 7920 Tower工作站上配置單CPU+8條內存時，手冊里會建議先插滿6個通道，然后再加2條（圖片點開后可放大查看，以下同）

如上圖，從2007年開始推出的LGA-3647 Xeon每顆CPU是6通道內存控制器，在插8條內存時BIOS里也能顯示為6通道（但此時并不是完全對稱的）。

工作站綜合BenchMark、測試細節(jié)解析

本文使用的測試軟件SPECworkstation 3.1，幾乎是工作站領域具備權威性的綜合BenchMark唯一選擇。我已經有20多年使用SPECviewperf（針對工作站顯卡應用）的經驗——最近兩次關于該測試工具的更新討論如下：

《SPECviewperf 2020基準測試更新：Quadro專業(yè)顯卡再排座次》

《圖形工作站專業(yè)顯卡測試：SPECviewperf 12》

關于測試整機的SPECworkstation 3.1，其前身為SPECwpc。我在《Optane SSD 900P評測(2)：比拼4x閃存NVMe RAID0》曾經用于測試工作站的存儲子系統(tǒng)，并給出過這樣的評價——“其綜合成績受磁盤I/O子系統(tǒng)性能影響較大，因此看www.spec.org網站公布的測試結果，有點像拿SSD來輔助“跑分”的比賽，看誰的盤快、看誰盤配的更多：）”

所以，我這次會排除其中的圖形（源自SPECviewperf）和SSD測試項目，只對比CPU。

如上圖，在SPECworkstation 3.1測試中涵蓋了媒體和娛樂、產品研發(fā)、生命科學、能源、金融服務等行業(yè)的應用，具體的CPU測試負載項目我也用紅圈標出來了。

上面是一份SPECworkstation測試結果的片段截圖，本文主要挑每個行業(yè)領域中的CPU測試項目（CPU綜合得分、具體單項得分）進行對比。

我想說接下來這個表可能才是本文的核心，甚至我為此花的精力比后面那些性能數(shù)據(jù)要多，不知您是否認同？

上表中部分描述參考了Standard Performance Evaluation Corporation網站上的介紹 https://gwpg.spec.org/benchmarks/benchmark/specworkstation-3_1/

而我在這里加入自己花時間研究、分析的重點，是每一項測試的CPU負載類型：單線程、多線程，還是多線程+多進程。

- 通用操作類別中的測試，以單線程為主。7zip壓縮看上去用到了多線程，實際效果請看后面對比；Python測試中確實包含一個多線程的項目；

- 媒體和娛樂（DCC）、金融服務計算，還有能源行業(yè)中的Convolution（卷積向量化）測試，都是單一進程多線程的任務。按照我的經驗，圖像渲染、視頻編碼這些應用，相對適合發(fā)揮出超多核CPU的性能（但不是每一次“拍腦袋”都會準？）所以才要看實際測試結果。

-產品研發(fā)（CAE）、生命科學，以及能源行業(yè)的大多數(shù)測試項目，在SPECworkstation基準測試中都是采用多進程+多線程來運行的。默認設置為每個應用進程調用16線程，相當于超過8核16線程的CPU，應該就會并行跑多個進程來發(fā)揮處理器的潛力。

正是因為部分應用的特點，在單一進程調用線程數(shù)過多時效率不夠好，所以就借助高性能計算的思想，把任務拆分運行。我看到SPECworkstation會把Microsoft HPC Pack組件也裝上，里面有些mpi（Message Passing Interface）的東西，在部分測試運行時會調用。以2顆16核的Xeon 6242 CPU為例，如果能優(yōu)化地把每2個進程分別運行在一顆物理CPU上，應該還能規(guī)避NUMA（非一致性內存訪問）的性能影響。

制造業(yè)中的CAD（計算機輔助設計），其中許多三維圖形操作都是單線程，總體上只能發(fā)揮出1-2個CPU核心；而產品研發(fā)（CAE）才是多核CPU的用武之地，比如本次測試中包含的結構有限元分析、流體力學計算。

SPECworkstation的CPU測試集里面多為開源軟件，或者免費公開的BenchMark子項目；相比之下，ANSYS（含F(xiàn)luent）、Altair、MSC等幾大商業(yè)CAE軟件巨頭，他們對新硬件（包括超多核CPU）的優(yōu)化和發(fā)揮通常更好一些，所以本文只是提供一個參考。

- 生命科學行業(yè)，本次測試主要包含分子動力學（用于制藥等領域）、醫(yī)療影像處理計算兩部分。

- 能源行業(yè)，包括一部分地震數(shù)據(jù)處理相關的。“人造地震波”并收集數(shù)據(jù)進行解釋的目的，是為了分析地質結構，探測地下的油氣資源。

在此我也列舉幾家常用的地震資料解釋平臺（商業(yè)軟件）：主要有哈里伯頓（Halliburton）的LandMark，斯倫貝謝（Schlumberger）的GeoFrame，還有一部分在用帕拉代姆（Paradigm）的Epos等。

測試結果：如何看待個別的跑分異常

本次SPECworkstation測試的結果，我以性能得分比率的形式展現(xiàn)給大家，將2顆Xeon Gold 6242 CPU的性能當作“1”，再列出單Xeon 6242、Xeon w9-3495X得分的倍數(shù)進行對比。

我沒有做一些特殊優(yōu)化，不列出BenchMark基準測試具體結果是為了避免不必要的麻煩。不過，我承諾在后續(xù)的具體應用軟件測試中，會直接呈現(xiàn)結果數(shù)值。

首先看各領域的CPU綜合得分：

-“通用操作”以單線程測試為主，所以單/雙路、不同型號CPU拉不開差距比較好理解；

-余下五大行業(yè)，單/雙Xeon 6242 CPU的差別都比較明顯，有些領域2顆CPU比1顆都接近翻倍了；只是媒體和娛樂（DCC）反而差距相對小，估計與具體測試項目有關。

-Xeon w9-3495X 56核相對于2顆16核的提升，除了生命科學一項的綜合得分有點不夠理想（待進一步分析），另外幾個行業(yè)都達到了1.84-1.99倍的水平，大家還記得我在前面列出的那個168%的Xeon 6258R理想值（按核心數(shù)線性估算）嗎？

以上綜合得分，對硬件制造商、發(fā)燒友和分析師是有用的；但具體到運行某一種或幾種軟件的工作站用戶來說，每個應用軟件的測試表現(xiàn)，才有更多的參考價值。下面我們來看單項測試：

在媒體和娛樂的3項測試中，說實話Blender渲染讓我感覺有點意外？單顆Xeon 6242就能達到雙CPU性能的89%，而56核的Xeon w9-3495X也只是跑到了2顆16核的1.33倍。該測試生成的2張渲染圖如下：

作為一個整體上有些復雜的綜合性BenchMark，SPECworkstation的更新相對不快。我之前在《讓45W TDP CPU穩(wěn)跑75W的秘密：Blender渲染測試（含Optix去噪點）》等2篇評測中玩過Blender，帶著這次的疑問，我想后續(xù)進一步用較新版本軟件實際測試再來次評估，看該軟件是否對較多的CPU核心數(shù)支持不夠好？

CAE領域的3項測試表現(xiàn)也有些不同，Calculix和WPCcfd從單CPU到雙CPU的提升幅度都很理想；但rodiniaCFD流體力學測試則有些相反——配2顆CPU在這里顯得不劃算，而單56核Xeon w9-3495X卻能跑到2顆16核CPU性能的3.43倍。

生命科學部分，lammps和rodiniaLifeSci測試看上去都挺理想；只有namd分子動力學這一項，Xeon w9-3495X在我的測試中表現(xiàn)有些不正常？這應該也是導致該CPU在前面的生命科學總分不佳的原因。但我去看了Intel提供的BenchMark參考結果（在本文結尾處有列出），同一部分測試的情況不像我這樣。

由于時間有限，這將作為本文中為數(shù)不多的異常結果，留待將來有時間再分析。這可能與測試工作站的配置，或者環(huán)境設置有關。

金融服務計算部分，包括Monte Carlo（蒙特卡洛）概率模擬、Black-Scholes期權定價模型和Binomial二項式期權定價模型。無論雙CPU帶來的提升，還是56核Xeon w9-3495X的表現(xiàn)都令人滿意。

盡管我是每項測試運行3遍取平均值，還是遇到了個別的隨機性誤差——有的測試單CPU性能只跑到了雙CPU不到一半的水平。

SPECworkstation能源部分的CPU測試包括Convolution 卷積向量化、FFTW（快速傅里葉變換）、Kirchhoff基爾霍夫方程、piosson（泊松）和 srmp（表面相關倍數(shù)預測）5項，Xeon w9-3495X的性能分別達到2顆Xeon 6242的1.3-2.47倍。

前面我提到過，通用操作部分由于主要是單線程測試，所以只是包含有一項Multithreaded Matrix的Python 3.6測試能反映出核心數(shù)的不同。從表面上看7zip在壓縮時也能把CPU跑滿，但卻沒有反映到SPECworkstation這項具體測試的得分上，可能在執(zhí)行或者結果統(tǒng)計上還有處理不周之處？

octave科學計算，Xeon w9-3495X的表現(xiàn)不夠好，測試中遇到少數(shù)比例的這種情況是正常的。畢竟新的硬件需要有些軟件做相應的適配優(yōu)化，才能發(fā)揮出最高的效率。

最后我也分享下3項GPU計算的結果。這部分實際“干活”的是NVIDIA A4000顯卡。（擴展閱讀：《GPU渲染/光線追蹤測試：NVIDIA RTX A4000 vs. GeForce 3070》）

不過在caffe和Folding@home這2項測試中，我也看到了不同測試平臺的影響。與最新的Xeon w9-3495X + Dell Precision 7960工作站相比，Xeon 6242 CPU + 7920主機只能讓PCIe 4.0顯卡跑在3.0帶寬下，但具體到這里影響GPU發(fā)揮的，可能是CPU的單核性能——因為我觀察到2個OpenCL計算任務除了GPU壓力大之外，同時也有一個CPU線程也是跑滿的。

由于SPECworkstation需要同時照顧AMD顯卡，所以采用了OpenCL而不是CUDA，這樣與N卡的實際工作環(huán)境應該有些不同。不過也算給大家一點參考吧：GPU計算系統(tǒng)搭配的CPU主頻最好也不要太低（注：不見得適用于所有情況）。

小結：Xeon W-3400達到預期、多核性能優(yōu)化要點

由于我手頭沒有2顆28核的Xeon Gold 6258R，所以給大家出示下Intel的宣傳數(shù)據(jù)——總體上看與我的測試結果基本相符，這次也算是做了個驗證吧。

如上圖，SPECworkstation基準測試解釋了我在以前文章中提出的一個問題，也反映出的一個優(yōu)化要點：在有些行業(yè)的一部分應用軟件，需要用到多進程并發(fā)運行，才能比較高效地發(fā)揮出超多核CPU工作站的效率。具體值得參考的細節(jié)都在文中，我就不再重復了。

Xeon W-3400的價值并不只在性能方面，包括PCIe 5.0擴展性等，都是超出上一代雙路工作站的。像以前那些為了激活更多PCIe插槽從而不得不加第二顆CPU的客戶，可以不用再因此而糾結了。

本輪測試始于CPU，而現(xiàn)代工作站又不止是CPU的舞臺，所以后續(xù)我會結合具體應用加入關于GPU的討論。接下來的測試計劃我也在前面也透露過一些，敬請期待：）

尊重知識，轉載時請保留全文。感謝您的閱讀和支持！

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综