、前言
Selenium是一個開源自動化測試工具,可以跨瀏覽器和平臺對web應(yīng)用程序執(zhí)行功能、回歸和負(fù)載測試。盡管Selenium是最好的工具之一,但它確實有一些缺點,它經(jīng)常面臨跨瀏覽器兼容性問題,導(dǎo)致測試失敗,對移動應(yīng)用程序的支持也有限,最重要的是,Selenium沒有內(nèi)置的報告選項等。
2、Rapise
Rapise是一個強(qiáng)大的自動化測試框架,用于web、移動和桌面應(yīng)用程序以及API的無腳本測試,它還幫助用戶使用多種技術(shù)管理測試。
Rapise易于使用,并允許用戶在其電子表格編輯器中編輯記錄的測試。另一方面,它提供對MS Dynamics 365和Java Applets的支持。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.inflectra.com/Products/Rapise/
3、Testim
Testim是領(lǐng)先的人工智能驅(qū)動測試自動化平臺,解決了測試中的兩個最大挑戰(zhàn),即編寫速度慢和測試不穩(wěn)定,它可以快速擴(kuò)展測試覆蓋范圍,并使發(fā)布保持正常。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.testim.io/
4、Subject7
Subject7是一個基于云的解決方案,可以無代碼地執(zhí)行測試自動化,它將所有測試統(tǒng)一在一個平臺中,并使任何人都能夠成為自動化專家。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.subject7.com/
5、OpenText UFT One
OpenText UFT One是最強(qiáng)大的商業(yè)Selenium替代品和測試自動化工具之一。最初由Mercury Interactive開發(fā),后來被HPE、MicroFocus收購,現(xiàn)在是Open Text Corporation的股東。
它是對功能和回歸測試有用的最佳Selenium測試替代方案之一。UFT支持web和各種開發(fā)環(huán)境,如SAP、Oracle、Seibel等。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.opentext.com/zh-cn/products/uft-one
6、Cypress
Cypress是一種用于web環(huán)境的開源測試自動化解決方案,與Selenium測試相比,該工具與當(dāng)前的開發(fā)實踐密切相關(guān)。
它是Selenium的最佳替代品之一,此自動化測試工具自動重新加載測試中所做的每個更改。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.cypress.io/
7、IBM DevOps Test UI
IBM DevOps Test UI自動化的功能和回歸測試工具可以幫助你實現(xiàn)精確的測試結(jié)果,它是最好的Selenium替代軟件之一,提供自動化的功能、回歸、GUI和數(shù)據(jù)驅(qū)動測試。
它支持一系列應(yīng)用程序,如Java、Siebel、SAP、Net、PowerBuilder、Ajax等,此功能測試工具自動完成代碼,并提供高級調(diào)試選項。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.ibm.com/cn-zh/products/devops-test/ui
8、Telerik Test Studio
Test Studio是由Progress開發(fā)的軟件自動化工具,它支持自動化應(yīng)用程序,如AJAX、HTML5、JavaScript、Silverlight、WPF、MVC、iOS、Android和PHP。
它是最好的Selenium測試替代方案之一,具有本機(jī)跨瀏覽器支持,是一個記錄和回放工具。Telerik UI控件也有本機(jī)支持,你還可以測試HTML彈出窗口和瀏覽器對話框。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.telerik.com/teststudio
9、Virtuoso
Virtuoso利用人工智能在沒有代碼的情況下自動化端到端測試,即使是在最動態(tài)的應(yīng)用程序上,無論是與iFrames交互還是存儲動態(tài)數(shù)據(jù),Virtuoso都支持它作為無代碼測試自動化框架工作。
使用自然語言編程(像編寫手動測試腳本一樣的簡單英語)、集成API測試和可視化回歸測試來構(gòu)建功能測試,以獲得端到端測試覆蓋率。Virtuoso的智能對象識別使用人工智能從簡單提示中找到xPaths和選擇器,并且是自我維護(hù)的。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://www.virtuoso.qa/
10、Playwright
微軟開源自動化測試工具 Playwright,支持主流瀏覽器,包括:Chrome、Firefox、Safari 等,同時支持以無頭模式、有頭模式運行,并提供了同步、異步的 API,可以結(jié)合 Pytest 測試框架使用,并且支持瀏覽器端的自動化腳本錄制等功能。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://playwright.dev/
11、DrissionPage
DrissionPage是一款基于Python的高效網(wǎng)頁自動化工具。它不僅能夠操控瀏覽器,還能發(fā)送和接收數(shù)據(jù)包,并將這兩種功能完美融合。既保留了瀏覽器自動化的便捷性,又具備了requests庫的高效處理能力。
功能特點:
優(yōu)點:
官方網(wǎng)址:
https://drissionpage.cn/
GPU是Graphics Processing Unit(圖形處理器)的簡稱,它是一種專門在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備(如平板電腦、智能手機(jī)等)上運行繪圖運算工作的微處理器。圖形處理器是NVIDIA公司(NVIDIA)在1999年8月發(fā)表NVIDIA GeForce 256(GeForce 256)繪圖處理芯片時首先提出的概念,在此之前,電腦中處理影像輸出的顯示芯片,通常很少被視為是一個獨立的運算單元。而對手冶天科技(ATi)亦提出視覺處理器(Visual Processing Unit)概念。圖形處理器使顯卡減少對中央處理器(CPU)的依賴,并分擔(dān)部分原本是由中央處理器所擔(dān)當(dāng)?shù)墓ぷ鳎绕涫窃谶M(jìn)行三維繪圖運算時,功效更加明顯。圖形處理器所采用的核心技術(shù)有硬件坐標(biāo)轉(zhuǎn)換與光源、立體環(huán)境材質(zhì)貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。
圖形處理器可單獨與專用電路板以及附屬組件組成顯卡,或單獨一片芯片直接內(nèi)嵌入到主板上,或者內(nèi)置于主板的北橋芯片中,現(xiàn)在也有內(nèi)置于CPU上組成SoC的。個人電腦領(lǐng)域中,在2007年,90%以上的新型臺式機(jī)和筆記本電腦擁有嵌入式繪圖芯片,但是在性能上往往低于不少獨立顯卡。但2009年以后,AMD和英特爾都各自大力發(fā)展內(nèi)置于中央處理器內(nèi)的高性能集成式圖形處理核心,它們的性能在2012年時已經(jīng)勝于那些低端獨立顯卡,這使得不少低端的獨立顯卡逐漸失去市場需求,兩大個人電腦圖形處理器研發(fā)巨頭中,AMD以AMD APU產(chǎn)品線取代旗下大部分的低端獨立顯示核心產(chǎn)品線。而在手持設(shè)備領(lǐng)域上,隨著一些如平板電腦等設(shè)備對圖形處理能力的需求越來越高,不少廠商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等,也在這個領(lǐng)域“大顯身手”。
GPU不同于傳統(tǒng)的CPU,如Intel i5或i7處理器,其內(nèi)核數(shù)量較少,專為通用計算而設(shè)計。相反,GPU是一種特殊類型的處理器,具有數(shù)百或數(shù)千個內(nèi)核,經(jīng)過優(yōu)化,可并行運行大量計算。雖然GPU在游戲中以3D渲染而聞名,但它們對運行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU允許某些計算比傳統(tǒng)CPU上運行相同的計算速度快10倍至100倍。
本期的智能內(nèi)參,我們推薦方正證券的報告《GPU研究框架》,從GPU的底層技術(shù)、產(chǎn)業(yè)鏈發(fā)展情況和國產(chǎn)GPU的自主之路三方面全面解析GPU及其產(chǎn)業(yè)。
本期內(nèi)參來源:方正證券
原標(biāo)題:
《GPU研究框架》
作者:陳杭 等
GPU(graphics processing unit)圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備(如平板電腦、智能手機(jī)等)上做圖像和圖形相關(guān)運算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計算機(jī)減少了對CPU的依賴,并解放了部分原本CPU的工作。在3D圖形處理時,GPU采用的核心技術(shù)有硬件T&L(幾何轉(zhuǎn)換和光照處理)、立方環(huán)境材質(zhì)貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等,而硬件T&L技術(shù)可以說是GPU的標(biāo)志。
GPU的內(nèi)部組成部分
GPU核心及PCB板
GPU的微架構(gòu)(Micro Architecture)是一種給定的指令集和圖形函數(shù)集合在處理器中執(zhí)行的方法。圖形函數(shù)主要用于繪制各種圖形所需要的運算。當(dāng)前和像素、光影處理、3D坐標(biāo)變換等相關(guān)運算由GPU硬件加速來實現(xiàn)。相同的指令集和圖形函數(shù)集合可以在不同的微架構(gòu)中執(zhí)行,但實施的目的和效果可能不同。優(yōu)秀的微架構(gòu)對GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用,GPU體系是GPU微架構(gòu)和圖形API的集合。
以目前最新的英偉達(dá)安培微架構(gòu)為例,GPU微架構(gòu)的運算部份由流處理器(Stream Processor,SP)、紋理單元(Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元(ROPs)組成。這些運算單元中,張量單元,光線追蹤單元由NVIDIA在伏特/圖靈微架構(gòu)引入。
除了上述運算單元外,GPU的微架構(gòu)還包含L0/L1操作緩存、Warp調(diào)度器、分配單元(Dispatch Unit)、寄存器堆(register file)、特殊功能單元(Special function unit,SFU)、存取單元、顯卡互聯(lián)單元(NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存(HBM2)等接口。
英偉達(dá)安培內(nèi)核概覽
英偉達(dá)安培內(nèi)核“SM”單元
GPU的流處理器單元是NVIDIA對其統(tǒng)一架構(gòu)GPU內(nèi)通用標(biāo)量著色器的命名。SP單元是全新的全能渲染單元,是繼Pixel Pipelines(像素管線)和Vertex Pipelines(頂點管線)之后新一代的顯卡渲染技術(shù)指標(biāo)。SP單元既可以完成VS(Vertex Shader,頂點著色器)運算,也可以完成PS(Pixel Shader,像素著色器)運算,而且可以根據(jù)需要組成任意VS/PS比例,從而給開發(fā)者更廣闊的發(fā)揮空間。
流處理器單元首次出現(xiàn)于DirectX 10時代的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發(fā)展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念,但是流處理器在橫向和縱向都不可類比,大量的流處理器是GPU性能強(qiáng)勁的必要非充分條件。
紋理映射單元(TMU)作為GPU的部件,它能夠?qū)ΧM(jìn)制圖像旋轉(zhuǎn)、縮放、扭曲,然后將其作為紋理放置到給定3D模型的任意平面,這個過程稱為紋理映射。紋理映射單元不可簡單跨平臺橫向比較,大量的紋理映射單元是GPU性能強(qiáng)勁的必要非充分條件。
光柵化處理單元(ROPs)主要負(fù)責(zé)游戲中的光線和反射運算,兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害,對ROPs的性能要求就越高,否則可能導(dǎo)致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進(jìn)行捆綁的,二者同比例增減。在AMD GPU中,ROPs單元和流處理器單元沒有直接捆綁關(guān)系。
英偉達(dá)安培內(nèi)核SP、ROPs、TMU拆解
英偉達(dá)RTX 3080 GPU-Z參數(shù)
消費GPU的實時光線追蹤在2018年由英偉達(dá)的“圖靈”GPU首次引入,光追單元(RT Cores)在此過程中發(fā)揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速,實時陰影、環(huán)境光、照明和反射,光追單元和光柵單元可以協(xié)同工作,進(jìn)一步提高幀數(shù)和陰影的真實感。
光追單元在英偉達(dá)的RTX光線追蹤技術(shù)、微軟DXR API、英偉達(dá)Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。擁有68個光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強(qiáng)10倍。
張量單元(Tensor Core)在2017年由英偉達(dá)的“伏特”GPU中被首次引入。張量單元主要用于實時深度學(xué)習(xí),服務(wù)于人工智能,大型矩陣運算和深度學(xué)習(xí)超級采樣(DLSS),可以帶來驚人的游戲和專業(yè)圖像顯示,同時提供基于云系統(tǒng)的快速人工智能。
英偉達(dá)RTX2080Ti張量單元算力
英偉達(dá)圖靈GPU光追單元運作流程
英偉達(dá)圖靈GPU張量單元提供多精度AI
GPU的API(Application Programming Interface)應(yīng)用程序接口發(fā)揮著連接應(yīng)用程序和顯卡驅(qū)動的橋梁作用。不過隨著系統(tǒng)優(yōu)化的深入,API也可以直接統(tǒng)籌管理高級語言、顯卡驅(qū)動和底層匯編語言。
3D API能夠讓編程人員所設(shè)計的3D軟件只需調(diào)動其API內(nèi)的程序,讓API自動和硬件的驅(qū)動程序溝通,啟動3D芯片內(nèi)強(qiáng)大的3D圖形處理功能,從而大幅地提高3D程序的設(shè)計效率。同樣的,GPU廠家也可以根據(jù)API標(biāo)準(zhǔn)來設(shè)計GPU芯片,以達(dá)到在API調(diào)用硬件資源時的最優(yōu)化,獲得更好的性能。3D API可以實現(xiàn)不同廠家的硬件、軟件最大范圍兼容。如果沒有API,那么開發(fā)人員必須對不同的硬件進(jìn)行一對一的編碼,這樣會帶來大量的軟件適配問題和編碼成本。
目前GPU API可以分為2大陣營和若干其他類。2大陣營分別是微軟的DirectX標(biāo)準(zhǔn)和KhronosGroup標(biāo)準(zhǔn),其他類包括蘋果的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。
微軟DirectX和Khronos Group API組合對比
DirectX是Direct eXtension的簡稱,作為一種API,是由微軟公司創(chuàng)建的多媒體編程接口。DirectX可以讓以Windows為平臺的游戲或多媒體程序獲得更高的執(zhí)行效率,加強(qiáng)3D圖形和聲音效果,并提供設(shè)計人員一個共同的硬件驅(qū)動標(biāo)準(zhǔn),讓游戲開發(fā)者不必為每一品牌的硬件來寫不同的驅(qū)動程序,也降低用戶安裝及設(shè)置硬件的復(fù)雜度。DirectX已被廣泛使用于Windows操作系統(tǒng)和Xbox主機(jī)的電子游戲開發(fā)。
OpenGL是Open Graphics Library的簡稱,是用于渲染2D、3D矢量圖形的跨語言、跨平臺的應(yīng)用程序編程接口(API),相比DirectX更加開放。這個接口由近350個不同的函數(shù)調(diào)用組成,用來繪制從簡單的二維圖形到復(fù)雜的三維景象。OpenGL常用于CAD、虛擬現(xiàn)實、科學(xué)可視化程序和電子游戲開發(fā)。
正是由于OpenGL的開放,所以它可以被運行在Windows、MacOS、Linux、安卓、iOS等多個操作系統(tǒng)上,學(xué)習(xí)門檻也比DirectX更低。但是,效率低是OpenGL的主要缺點。
DirectX和OpenGL特點對比
Metal是Apple在2014年創(chuàng)建的接近底層的,低開銷的硬件加速3D圖形和計算著色器API。Metal在iOS 8中首次亮相。Metal在一個API中結(jié)合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS,iPadOS,macOS和tvOS上的應(yīng)用程序提供對GPU硬件的底層訪問來提高性能。相較于OpenGL ES,Metal減少了10倍的代碼擁擠,提供了更好的解決方案,并將會在蘋果設(shè)備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調(diào)用的面向?qū)ο蟮腁PI。GPU的全部操作是通過Metal著色語言控制的。
2017年,蘋果推出了Metal的升級版Metal2,兼容前代Metal硬件,支持iOS11,MacOS和tvOS11。Metal2可以在Xcode中更有效地進(jìn)行配置和調(diào)試,加快機(jī)器學(xué)習(xí)速度,降低CPU工作量,在MacOS上支持VR,充分發(fā)揮A11 GPU的特性。
Vulkan是一種低開銷,跨平臺的3D圖像和計算API。Vulkan面向跨所有平臺的高性能實時3D圖形應(yīng)用程序,如視頻游戲和交互式媒體。與OpenGL,Direct3D 11和Metal相比,Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外,Vulkan還旨在使開發(fā)人員更好地在多核CPU中分配工作。
Vulkan源自并基于AMD的Mantle API組件,最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發(fā)布于2020年1月15日,該版本整合了23個額外經(jīng)常被使用的Vulkan拓展。
Metal與OpenGL性能對比
OpenGL和Vulkan對比
軟件生態(tài)方面,GPU無法單獨工作,必須由CPU進(jìn)行控制調(diào)用才能工作,而CPU在處理大量類型一致的數(shù)據(jù)時,則可調(diào)用GPU進(jìn)行并行計算。所以,GPU的生態(tài)和CPU的生態(tài)是高度相關(guān)的。
近年來,在摩爾定律演進(jìn)的放緩和GPU在通用計算領(lǐng)域的高速發(fā)展的此消彼長之下,通用圖形處理器(GPGPU)逐漸“反客為主”,利用GPU來計算原本由CPU處理的通用計算任務(wù)。
目前,各個GPU廠商的GPGPU的實現(xiàn)方法不盡相同,如NVIDIA使用的CUDA(compute unified device architecture)技術(shù)、原ATI的ATI Stream技術(shù)、Open CL聯(lián)盟、微軟的DirectCompute技術(shù)。這些技術(shù)可以讓GPU在媒體編碼加速、視頻補(bǔ)幀與畫面優(yōu)化、人工智能與深度學(xué)習(xí)、科研領(lǐng)域、超級計算機(jī)等方面發(fā)揮異構(gòu)加速的優(yōu)勢。以上4種技術(shù)中,只有OpenCL支持跨平臺和開放標(biāo)注的特性,還可以使用專門的可編程電路來加速計算,業(yè)界支持非常廣泛。
DirectX和OpenGL生態(tài)對比
OpenCL聯(lián)盟生態(tài)
GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統(tǒng)內(nèi)存。GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統(tǒng)內(nèi)存。
GPU的主要分類
獨立GPU
集成GPU Die
GPU顯存是用來存儲顯卡芯片處理過或者即將提取的渲染數(shù)據(jù),是GPU正常運作不可或缺的核心部件之一。GPU的顯存可以分為獨立顯存和集成顯存兩種。目前,獨立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成顯存主要采用DDR3、DDR4。服務(wù)器GPU偏好使用Chiplet形式的HBM顯存,最大化吞吐量。
集成顯存受制于64位操作系統(tǒng)的限制,即便組成2通道甚至4通道,與獨立顯存的帶寬仍有相當(dāng)差距。通常這也造成了獨立GPU的性能強(qiáng)于集成GPU。
顯存的主要分類
獨立顯存的工作方式
獨立顯存的工作方式
集成顯卡是指一般不帶顯存,而是使用系統(tǒng)的一部分主內(nèi)存作為顯存的顯卡。集成顯卡可以被整合進(jìn)主板作為北橋芯片的一部分,也可以和CPU集成在同一個Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應(yīng)用軟件的需求自動調(diào)整。如果顯卡運行需要占用大量內(nèi)存空間,那么整個系統(tǒng)運行會受限,此外系統(tǒng)內(nèi)存的頻率通常比獨立顯卡的顯存低很多,因此集成顯卡的性能比獨立顯卡要遜色一些。
獨立顯卡是將顯示芯片及相關(guān)器件制作成一個獨立于電腦主板的板卡,成為專業(yè)的圖像處理硬件設(shè)備。獨立顯卡因為具備高位寬、高頻獨立顯存和更多的處理單元,性能遠(yuǎn)比集成顯卡優(yōu)越,不僅可用于一般性的工作,還具有完善的2D效果和很強(qiáng)的3D水平,因此常應(yīng)用于高性能臺式機(jī)和筆記本電腦,主要的接口為PCIe。
如今,獨立顯卡與集成顯卡已經(jīng)不是2個完全割裂,各自為營的圖像處理單元了。二者在微軟DX12的支持下也可以實現(xiàn)獨核顯交火,同時AMD和NVIDIA的顯卡也可實現(xiàn)混合交火。
集成顯卡和獨立顯卡對比
GPU對比CPU:從芯片設(shè)計思路看,CPU是以低延遲為導(dǎo)向的計算單元,通常由專為串行處理而優(yōu)化的幾個核心組成,而GPU是以吞吐量為導(dǎo)向的計算單元,由數(shù)以千計的更小、更高效的核心組成,專為并行多任務(wù)設(shè)計。
CPU和GPU設(shè)計思路的不同導(dǎo)致微架構(gòu)的不同。CPU的緩存大于GPU,但在線程數(shù),寄存器數(shù)和SIMD(單指令多數(shù)據(jù)流)方面GPU遠(yuǎn)強(qiáng)于CPU。
微架構(gòu)的不同最終導(dǎo)致CPU中大部分的晶體管用于構(gòu)建控制電路和緩存,只有少部分的晶體管完成實際的運算工作,功能模塊很多,擅長分支預(yù)測等復(fù)雜操作。GPU的流處理器和顯存控制器占據(jù)了絕大部分晶體管,而控制器相對簡單,擅長對大量數(shù)據(jù)進(jìn)行簡單操作,擁有遠(yuǎn)勝于CPU的強(qiáng)大浮點計算能力。
GPU和CPU的核心設(shè)計思路對比
GPU和CPU的核心對比
后摩爾時代,隨著GPU的可編程性不斷增強(qiáng),GPU的應(yīng)用能力已經(jīng)遠(yuǎn)遠(yuǎn)超出了圖形渲染,部份GPU被用于圖形渲染以外領(lǐng)域的計算成為GPGPU。與此同時,CPU為了追求通用性,只有少部分晶體管被用于完成運算,而大部分晶體管被用于構(gòu)建控制電路和高速緩存。但是由于GPU對CPU的依附性以及GPU相較CPU更高的開發(fā)難度,所以GPU不可能完全取代CPU。我們認(rèn)為未來計算架構(gòu)將是GPU+CPU的異構(gòu)運算體系。
在GPU+CPU的異構(gòu)運算中,GPU和CPU之間可以無縫地共享數(shù)據(jù),而無需內(nèi)存拷貝和緩存刷新,因為任務(wù)以極低的開銷被調(diào)度到合適的處理器上。CPU憑借多個專為串行處理而優(yōu)化的核心運行程序的串行部份,而GPU使用數(shù)以千計的小核心運行程序的并行部分,充分發(fā)揮協(xié)同效應(yīng)和比較優(yōu)勢。
異構(gòu)運算除了需要相關(guān)的CPU和GPU等硬件支持,還需要能將它們有效組織的軟件編程。OpenCL是(OpenComputing Language)的簡稱,它是第一個為異構(gòu)系統(tǒng)的通用并行編程而產(chǎn)生的統(tǒng)一的、免費的標(biāo)準(zhǔn)。OpenCL支持由多核的CPU、GPU、Cell架構(gòu)以及信號處理器(DSP)等其他并行設(shè)備組成的異構(gòu)系統(tǒng)。
OpenCL異構(gòu)運算構(gòu)成
異構(gòu)運算下的GPU工作流程
GPU與ASIC和FPGA的對比:數(shù)據(jù)、算力和算法是AI三大要素,CPU配合加速芯片的模式成為典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。
GPU用于大量重復(fù)計算,由數(shù)以千計的更小、更高效的核心組成大規(guī)模并行計算架構(gòu),配備GPU的服務(wù)器可取代數(shù)百臺通用CPU服務(wù)器來處理HPC和AI業(yè)務(wù)。
FPGA是一種半定制芯片,靈活性強(qiáng)集成度高,但運算量小,量產(chǎn)成本高,適用于算法更新頻繁或市場規(guī)模小的專用領(lǐng)域。
ASIC專用性強(qiáng),市場需求量大的專用領(lǐng)域,但開發(fā)周期較長且難度極高。
在AI訓(xùn)練階段需要大量數(shù)據(jù)運算,GPU預(yù)計占64%左右市場份額,F(xiàn)PGA和ASIC分別為22%和14%。推理階段無需大量數(shù)據(jù)運算,GPU將占據(jù)42%左右市場,F(xiàn)PGA和ASIC分別為34%和24%。
不同應(yīng)用場景AI芯片性能需求和具體指標(biāo)
GPU、FPGA、ASIC AI芯片對比
在PC誕生之初,并不存在GPU的概念,所有的圖形和多媒體運算都由CPU負(fù)責(zé)。但是由于X86 CPU的暫存器數(shù)量有限,適合串行計算而不適合并行計算,雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補(bǔ)CPU的缺陷,但是僅僅在指令集方面的改進(jìn)不能起到根本效果,所以誕生了圖形加速器作為CPU的輔助運算單元。
GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史,在此過程中曾經(jīng)的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨立顯卡領(lǐng)域主要由英偉達(dá)和AMD控制,而集成顯卡領(lǐng)域由英特爾和AMD控制。
GPU的發(fā)展史
英偉達(dá)的GPU架構(gòu)自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏,帶來更多更新的運算單元和更好的API適配性。在每次的大換代之間,不乏有一次的小升級,如采用開普勒二代微架構(gòu)的GK110核心相較于采用初代開普勒微架構(gòu)的GK104核心,升級了顯卡智能動態(tài)超頻技術(shù),CUDA運算能力提升至3.5代,極致流式多處理器(SMX)的浮點運算單元提升8倍,加入了Hyper-Q技術(shù)提高GPU的利用率并削減了閑置,更新了網(wǎng)格管理單元(Grid Management Unit),為動態(tài)并行技術(shù)提供了靈活性。
英偉達(dá)GPU微架構(gòu)的持續(xù)更新,使英偉達(dá)GPU的能效提升了數(shù)十倍,占領(lǐng)了獨立顯卡技術(shù)的制高點。
2008-2020英偉達(dá)GPU微架構(gòu)進(jìn)化
圖形API在GPU的運算過程中發(fā)揮著連接高級語言、顯卡驅(qū)動乃至底層匯編語言的作用,充當(dāng)GPU運行和開發(fā)的“橋梁”和“翻譯官”。微軟DirectX標(biāo)準(zhǔn)可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡(luò)部分,其中與GPU具有最直接關(guān)系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標(biāo)準(zhǔn),前者主要負(fù)責(zé)2D圖像加速,后者主要負(fù)責(zé)3D效果顯示。
從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中,DirectX不斷完善對各類GPU的兼容,增加開發(fā)人員的權(quán)限,提高GPU的顯示質(zhì)量和運行幀數(shù)。
DirectX一般和Windows操作系統(tǒng)同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。
1998-2014微軟DirectX進(jìn)化
GPU和CPU都是以先進(jìn)制程為導(dǎo)向的數(shù)字芯片。先進(jìn)制程可以在控制發(fā)熱和電能消耗的同時,在有限的Die中放入盡可能多的晶體管,提高GPU的性能和能效。
NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級到了RTX3000系列的7/8納米制程,在整個過程中,晶體管數(shù)量提升了20多倍,逐步確立了在獨立GPU的市場龍頭地位。
同時在整個過程中,NVIDIA一直堅持不采用IDM的模式,而是讓臺積電負(fù)責(zé)GPU的制造,自生專注于芯片設(shè)計,充分發(fā)揮比較優(yōu)勢。
2008-2020英偉達(dá)GPU主要制程和晶體管數(shù)進(jìn)化
根據(jù)前12年的GPU發(fā)展軌跡來看,GPU微架構(gòu)的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更多”是指晶體管數(shù)量和運算單元的增加,其中包括流處理器單元、紋理單元、光柵單元等數(shù)量上升。“更專”是指除了常規(guī)的計算單元,GPU還會增加新的運算單元。例如,英偉達(dá)的圖靈架構(gòu)相較于帕斯卡架構(gòu)新增加了光追單元和張量單元,分別處理實時光線追蹤和人工智能運算。“更智能”是指GPU的AI運算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。
英偉達(dá)GTX1080對比RTX2080
英偉達(dá)伏特微架構(gòu)對比安培微架構(gòu)AI加速性能
英偉達(dá)安培架構(gòu)提升
綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級,我們認(rèn)為GPU API的升級趨勢是提高GPU的運行效率、增加高級語言和顯卡驅(qū)動之間的連接、優(yōu)化視覺特效等。其中,提供更底層的支持:統(tǒng)籌高級語言、顯卡驅(qū)動和底層語言是幾乎所有API升級的主要方向。
不過提供更底層的支持只是更高的幀數(shù)或更好的畫質(zhì)的必要非充分條件。在整個軟件的開發(fā)過程中,軟件開發(fā)商需要比驅(qū)動程序和系統(tǒng)層更好地調(diào)度硬件資源,才能充分發(fā)揮底層API的效果。
在顯示質(zhì)量方面,DirectX 12 Ultimate采用當(dāng)下最新的圖形硬件技術(shù),支持光線追蹤、網(wǎng)格著色器和可變速率著色,PC和Xbox共用同一個API,堪稱次世代游戲的全新黃金標(biāo)準(zhǔn)。
非底層DirectX 11對比底層DirectX 12
DirectX 12 Ultimate新特性
GPU制造升級趨勢:以先進(jìn)制程為導(dǎo)向。GPU性能的三大決定因素為主頻、微架構(gòu)、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長度等特征尺寸,不過出于營銷的需要,現(xiàn)在的制程已經(jīng)偏離了本意,因此單純比較納米數(shù)沒有意義。按英特爾的觀點,每平方毫米內(nèi)的晶體管數(shù)(百萬)更能衡量制程。據(jù)此,臺積電和三星的7nm工藝更接近英特爾的10nm工藝。
先進(jìn)的制程可以降低每一個晶體管的成本,提升晶體管密度,在GPU Die體積不變下實現(xiàn)更高的性能;先進(jìn)制程可以提升處理器的效能,在性能不變的情況下,減少發(fā)熱或在發(fā)熱不變的情況下,通過提升主頻來拉高性能。
先進(jìn)制程的主要目的是降低平面結(jié)構(gòu)帶來的漏電率問題,提升方案可以通過改變工藝,如采用FinFET(鰭式場效應(yīng)晶體管)或GAA(環(huán)繞式柵極);或采用特殊材料,如FD-SOI(基于SOI的超薄絕緣層上硅體技術(shù))。
先進(jìn)制程工藝之FinFET
英特爾10nm先進(jìn)制程帶來的性能和效能提升
GPU制造升級趨勢:Chiplet化。高位寬內(nèi)存(HBM)是小芯片(Chiplet)在GPU中的常見應(yīng)用。HBM是一種高速計算機(jī)存儲器3D堆棧SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要應(yīng)用在高端獨立顯卡和服務(wù)器顯卡。
HBM通過3D堆疊4個DRAM Die和1片邏輯Die組成一個Chiplet,其中每片DRAM具有2個128位通道,通過TSV(硅通孔)相連。所以,一片Chiplet總共8個128位通道,總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層(Interposer)連接GPU芯片。相比之下,GDDR5內(nèi)存的總線寬度為32位,帶有512位內(nèi)存接口的顯卡也只有16個通道,而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比,每GB的表面積減少94%,每GB/S帶寬的能效提升2倍多。
HBM支持最多每個Chiplet 4GB的存儲,HBM2在HBM的基礎(chǔ)上將每片Chiplet的最大容量提升至了8GB,顯存主頻提升1倍,同時總位寬保持不變。
HBM的GPU應(yīng)用
GDDR5對比HBM
HBM先進(jìn)封裝結(jié)構(gòu)
GPU制造可分為IDM和Fab+Fabless。IDM集芯片設(shè)計、芯片制造、芯片封裝和測試等多個產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。
Fabless只負(fù)責(zé)芯片的電路設(shè)計與銷售,將生產(chǎn)、測試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只負(fù)責(zé)制造,不負(fù)責(zé)芯片設(shè)計,可以同時為多家設(shè)計公司服務(wù),但受制于公司間的競爭關(guān)系。臺積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后,根本原因是英特爾受困于IDM運作模式。隨著28納米以下先進(jìn)制程的發(fā)展,芯片的制造成本和設(shè)計成本成指數(shù)級上升。同時,一條12英寸晶圓的生產(chǎn)線從建設(shè)到生產(chǎn)的周期約2年,投資至少30-50億美元,資本支出占比80%,整體風(fēng)險非常大。英特爾以有限的資源不支持它持續(xù)的設(shè)計和生產(chǎn)的的兩線作戰(zhàn)。
Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢,分散了GPU設(shè)計和制造的風(fēng)險,符合半導(dǎo)體分工的大趨勢。
IDM與Fab+Fabless對比
芯片設(shè)計費用趨勢(億美元)
過去20多年里,GPU的基本需求源于視頻加速,2D/3D游戲。隨后GPU運用自身在并行處理和通用計算的優(yōu)勢,逐步開拓服務(wù)器、汽車、礦機(jī)、人工智能、邊緣計算等領(lǐng)域的衍生需求。雖然GPU無法離開CPU獨立運作,但是在當(dāng)前“云化”加速的時代,離開了GPU的CPU也無法勝任龐大的計算需求。所以GPU和CPU組成了異構(gòu)運算體系,從底層經(jīng)由系統(tǒng)軟件和驅(qū)動層支持著上層的各種應(yīng)用。GPU已經(jīng)成為了專用計算時代的剛需。
現(xiàn)代云計算中GPU加速的剛需
2020年全球GPU市場價值預(yù)計為254.1億美元,預(yù)計2027年將達(dá)到1853.1億美元,年平均增速為32.82%。按GPU的類型進(jìn)行劃分,市場可以細(xì)分為獨立、集成和混合。2019年,集成GPU占GPU市場的主導(dǎo)地位,但是由于混合GPU同時擁有集成和專用GPU的能力,所以混合細(xì)分市場預(yù)計實現(xiàn)最高復(fù)合增長率。
按GPU的設(shè)備進(jìn)行劃分,市場可細(xì)分為計算機(jī)、平板電腦、智能手機(jī)、游戲機(jī)、電視、其他。就收入而言,智能手機(jī)細(xì)分市場占比最大,在未來也將保持這一趨勢。但是,由于醫(yī)療等其他設(shè)備中對小型GPU的需求不斷增加,預(yù)計未來的年復(fù)合增長率將最高。
按GPU的行業(yè)進(jìn)行劃分,市場可細(xì)分為電子、IT與電信、國防與情報、媒體與娛樂、汽車、其他。由于GPU在設(shè)計和工程應(yīng)用中的廣泛使用,預(yù)計汽車細(xì)分行業(yè)的年復(fù)合增長率最高。
按GPU的地理區(qū)域劃分,市場可細(xì)分為北美、歐洲、亞太和其他地區(qū)。亞太地區(qū)在2019年主導(dǎo)了全球GPU市場,預(yù)計在整個預(yù)測期內(nèi)將保持主導(dǎo)地位。
全球GPU市場規(guī)模預(yù)測
2015-2025全球前三GPU供應(yīng)商營收總和
全球GPU已經(jīng)進(jìn)入了寡頭壟斷的格局。在傳統(tǒng)GPU市場中,排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業(yè)收入。英偉達(dá)的收入占56%、AMD占26%、英特爾占18%。
在手機(jī)和平板GPU方面,聯(lián)發(fā)科、海思麒麟、三星Exynos的GPU設(shè)計主要基于公版ARM MaliGPU或PowerVR微架構(gòu)。高通驍龍Adreno和蘋果A系列采用自研GPU微架構(gòu)。2019Q2,ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機(jī)和平板的前五大GPU供應(yīng)商。同期ARM Mali在以上五大GPU供應(yīng)商中占43%的市場份額,高通Adreno占36%的份額,蘋果占12%的份額。
2019前三家GPU供應(yīng)商收入份額對比
2019 Q2手機(jī)和平板GPU供應(yīng)商份額
英偉達(dá)公司成立于1993年,于1999年率先推出“GPU”的圖形解決方案。公司主要設(shè)計游戲和專業(yè)市場的GPU,移動計算和自動駕駛汽車的SoC,是GPU計算領(lǐng)域公認(rèn)的全球領(lǐng)導(dǎo)者。它主要的GPU產(chǎn)線“GeForce”和AMD的“Radeon”形成直接競爭。同時,英偉達(dá)為了拓展移動游戲平臺,推出了掌機(jī)Shield、Shield平板、Shield電視盒子和云游戲服務(wù)GeForce Now。目前,公司已經(jīng)完成了由芯片供應(yīng)商向計算平臺的轉(zhuǎn)型。
英偉達(dá)的四大增長驅(qū)動力分別是游戲業(yè)務(wù)、數(shù)據(jù)中心業(yè)務(wù)、專業(yè)視覺業(yè)務(wù)、自動駕駛業(yè)務(wù),各業(yè)務(wù)的代表性GPU方案分別是GeForce,DGX、EGX、HGX,Quadro、AGX。
英偉達(dá)2021財年營收167億美元,其中游戲、數(shù)據(jù)中心、專業(yè)視覺、自動駕駛業(yè)務(wù)在2020財年分別貢獻(xiàn)了營收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后,于2021財年毛利率突破60%。
英偉達(dá)2021財年的業(yè)務(wù)構(gòu)成
英偉達(dá)的主要增長驅(qū)動力
英偉達(dá)的游戲業(yè)務(wù)由GeForce和Shield組成。其中Shield面向移動端和云,GeForce面向PC。游戲筆記本和云游戲是公司拓展市場的2大方向。GeForce是英偉達(dá)游戲業(yè)務(wù)的核心。GeForce是全球最大的游戲平臺,擁有超過2億名玩家。在PC游戲領(lǐng)域,英偉達(dá)的營收是其他主要GPU供應(yīng)商的三倍多。GeForce已經(jīng)來到了RTX30系列,采用第二代NVIDIA RTX架構(gòu)-NVIDIA安培架構(gòu),搭載全新的RT Core、Tensor Core及流式多處理器,擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進(jìn)技術(shù),可帶來逼真的光線追蹤效果和先進(jìn)的AI性能。
除了PC游戲市場,英偉達(dá)也向合作伙伴–任天堂Switch主機(jī)提供定制版Tegra SoC。作為合作的一部分,Shield主機(jī)可以暢享任天堂的游戲,GameStream串流游戲和熱門游戲,實現(xiàn)4KHDR畫質(zhì),支持百度DuerOS對話式人工智能。
英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)的技術(shù)根源是CUDA(統(tǒng)一計算設(shè)備架構(gòu))。CUDA首次推出于2006年的G80核心,隸屬于通用并行計算架構(gòu),創(chuàng)造了GPGPU。在“安培”時代,CUDA核心已經(jīng)進(jìn)化到了8.0,被運用在幾乎所有的英偉達(dá)產(chǎn)品線。
CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形API相比,CUDA可以使開發(fā)者更容易使用GPU資源。當(dāng)前,CUDA在廣義上既代表GPU的硬件平臺又代表GPU的軟件平臺。
在硬件平臺方面,CUDA包含了CUDA指令集以及GPU內(nèi)部的并行計算引擎。GPU平臺的矢量運算如INT、FP32、FP64都由CUDA承擔(dān)。開發(fā)人員可以使用C語言和Fortran語言為CUDA編寫程序。
在軟件平臺方面,基于CUDA的CUDA-X加速庫、工具和科技集合,向上對接不同的行業(yè)應(yīng)用需求。在英偉達(dá)的軟件棧體系中,分為CUDA-X AI和CUDA-X HPC,分別面向AI和HPC兩大領(lǐng)域,可以在人工智能和高性能計算方面提供遠(yuǎn)超其他競品的性能。CUDA-X的開發(fā)者已經(jīng)超過100萬。
英偉達(dá)CUDA-X HPC
英偉達(dá)CUDA-X AI
英偉達(dá)數(shù)據(jù)中心的產(chǎn)品包括適用于AI的DGX系統(tǒng),適用于邊緣計算的EGX平臺,適用于超算的HGX平臺、適用于數(shù)據(jù)處理的DPU、簡化深度學(xué)習(xí),機(jī)器學(xué)習(xí),高性能計算的NGC目錄。相關(guān)的GPU加速器有采用安培架構(gòu)的A100、A40,采用圖靈架構(gòu)的T4、RTX6000、RTX8000,采用伏特架構(gòu)的V100。
過去5個財年中,英偉達(dá)數(shù)據(jù)中心的營收從8.3億美元上升至66.96億美元,年復(fù)合增速69%。同時,公司的注冊開發(fā)者超過200萬,與主要的云供應(yīng)商如谷歌、騰訊、阿里建立了供應(yīng)關(guān)系,世界500強(qiáng)超算中的份額從6%上升至70%。
英偉達(dá)主要云合作伙伴
英偉達(dá)數(shù)據(jù)中心營收趨勢
英偉達(dá)在超算500強(qiáng)中份額
英偉達(dá)專業(yè)視覺業(yè)務(wù)主要由Quadro產(chǎn)品線組成。Quadro在GeForce的基礎(chǔ)上加強(qiáng)了NVLink、GPU的通用計算性能和顯存容量,擁有Iray、Omniverse平臺、材質(zhì)定義語言等特有技術(shù)。Quadro被廣泛應(yīng)用在臺式工作站、筆記本電腦、EGX服務(wù)器、虛擬工作空間、云端、定制化方案中。英偉達(dá)Quadro方案有超過50種應(yīng)用、4000萬設(shè)計用戶和2000萬企業(yè)用戶,并正在不斷解鎖新市場。
在過去的5個財年,英偉達(dá)專業(yè)視覺的營收從8.35億美元上升至10.53億美元,年復(fù)合增速6%。
英偉達(dá)專業(yè)視覺GPU加速合作伙伴
英偉達(dá)專業(yè)視覺營收趨勢
英偉達(dá)專業(yè)視覺方案
英偉達(dá)的汽車產(chǎn)品包括相關(guān)駕駛軟件、駕駛基礎(chǔ)設(shè)計、AGX平臺,提供訓(xùn)練、模擬、智能駕駛艙體驗、高清地圖和定位等解決方案。在絕對性能方面,搭載4顆Drive AGX Origin的蔚來ADAM超算平臺支持L4以上自動駕駛,超過7個特斯拉FSD算力總和。
不同于特斯拉自動駕駛追求軟硬件的高度契合,英偉達(dá)的方案更追求開放性。公司在汽車領(lǐng)域的合作伙伴以軟件服務(wù)和轎車居多,分別達(dá)到了76家和42家。同時,公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強(qiáng)力的生態(tài)。
在過去的5個財年,英偉達(dá)自動駕駛的營收從4.87億美元上升至5.36億美元,年復(fù)合增速3%。
英偉達(dá)自動駕駛營收趨勢
英偉達(dá)自動駕駛合作伙伴分布數(shù)
2020年9月13日,NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xì)分為以下5個方面:
1. 創(chuàng)造AI時代的世界級計算公司,將英偉達(dá)領(lǐng)先的AI計算平臺和ARM龐大的CPU生態(tài)相結(jié)合;
2. 通過英偉達(dá)在移動端和PC等大型終端市場的科技拓展ARM的IP授權(quán)組合;
3. 加速ARM的服務(wù)器CPU、數(shù)據(jù)中心、邊緣AI、IoT發(fā)展;
4. 將英偉達(dá)計算平臺的開發(fā)者由200萬提升至超過1500萬;
5. 并購可以立即增加英偉達(dá)的非GAAP毛利率和非GAAP每股收益;
合并后的英偉達(dá)將把計算從云、智能手機(jī)、PC、自動駕駛車和機(jī)器人技術(shù)推進(jìn)到了邊緣物聯(lián)網(wǎng),將AI計算拓展到全球,在拓展大規(guī)模、高增長市場的同時加速創(chuàng)新。
英偉達(dá)從云到邊緣
AMD是全球唯一可以同時提供高性能GPU和CPU的企業(yè)。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中,AMD繼續(xù)使用ATI作為顯卡品牌。直到2010年,AMD才拋棄原ATI的品牌命名方式。
目前,AMD同時提供獨立GPU和集成GPU,其集成GPU主要運用在Ryzen APU、嵌入式、半定制平臺中,獨立GPU分為Radeon和Instinct系列,主要用于游戲、專業(yè)視覺、服務(wù)器等應(yīng)用。
過去六年,AMD的計算和圖形收入的營收由18.05億美元上升至64.32億美元,年復(fù)合增速29%。
未來五年,AMD計劃成為高性能計算的領(lǐng)導(dǎo)者,提供顛覆性的CPU和GPU方案。
AMD計算和圖形部門營收
AMD GPU的聚焦領(lǐng)域
AMD的集成GPU主要被運用在臺式機(jī)和筆記本的APU產(chǎn)品中,和CPU組成異構(gòu)運算單元。臺式和筆記本APU的GPU部份共用微架構(gòu)和核心技術(shù),二者GPU的主要差異在于TDP和處理單元的數(shù)量,臺式強(qiáng)于筆記本。
“Renior”APU的GPU繼續(xù)使用Vega微架構(gòu),但受益于7納米制程,每個處理單元效能顯著提升。
7納米Vega的提升包括:數(shù)據(jù)網(wǎng)絡(luò)翻倍、優(yōu)化低功耗狀態(tài)轉(zhuǎn)換、25%主頻提升、77%存儲位寬提升。這些提升帶來了在保持15W功耗不變的前提下,每個計算單元59%的性能提升、1.79TFLOPS的32位浮點峰值吞吐。
在3DMark Time Spy(DX12)的跑分中,7納米的Ryzen 4800U的GPU表現(xiàn)超過10納米i7-1065G7,是14納米i7-10710U的2倍以上。
AMD “RENIOR”APU
AMD “RENIOR”APU內(nèi)核解析
AMD “RENIOR”APU跑分對比
AMD的Radeon系列游戲獨立GPU按微架構(gòu)推出時間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中,除RX500系列外均采用臺積電7納米制程。
2020年11月推出的RDNA2微架構(gòu)相較于前代RDNA絕對性能最高提升一倍,能效提高54%,支持DirectX12 Ultimate,硬件光線追蹤和可變速率著色器等先進(jìn)技術(shù)。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達(dá)的RTX 3090。
為了發(fā)揮AMD CPU和GPU的協(xié)同效應(yīng),Radeon擁有AMD SmartAccess Memory技術(shù),銳龍CPU和顯卡之間能實現(xiàn)更出色的通信。RX6800系列顯卡在部分游戲中4K畫質(zhì)性能額外提升最高可達(dá)7%。
2022年前,AMD將基于更先進(jìn)的制程打造RDNA3微架構(gòu),進(jìn)一步強(qiáng)化光追等計算表現(xiàn)。
除了傳統(tǒng)的BGA顯存封裝,AMD還積極運用HBM系列顯存。在Radeon7中,16GB的HBM2顯存擁有1TB/S的帶寬,超過同期Titan RTX 50%。
AMD獨立游戲GPU路線圖
AMD獨立游戲GPU產(chǎn)品線
AMD的數(shù)據(jù)中心GPU業(yè)務(wù)由Radeon Instinct加速器系列、以客戶為核心的數(shù)據(jù)中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM,同時AMD也向微軟AZURE和亞馬遜網(wǎng)絡(luò)服務(wù)提供視覺云解決方案。
ROCm是全球首個針對加速式計算且不限定編程語言的超大規(guī)模開源平臺,遵循UNIX的選擇哲學(xué)、極簡主義以及針對GPU計算的模塊化軟件開發(fā)。
ROCm適合大規(guī)模計算,支持多路GPU,有豐富的系統(tǒng)運行庫,包括框架、庫、編程模型、互聯(lián)和Linux Kernel上游支持,提供各種重要功能來支持大規(guī)模應(yīng)用、編譯器和語言運行庫的開發(fā)。
AMD正與美國能源部、橡樹嶺國家實驗室和Cray公司合作,使用EPYC(霄龍)CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺。
AMD ROCm開源軟件生態(tài)
AMD數(shù)據(jù)中心GPU產(chǎn)品線
Radeon Instinct MI 100加速器采用專注計算的CDNA微架構(gòu),在計算和連接方面實現(xiàn)了巨大飛躍,與AMD上一代加速器相比,高性能計算工作負(fù)載(FP32矩陣)性能提升近3.5倍,而人工智能工作負(fù)載(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達(dá)安培A100,同時功耗比后者低100瓦。
為了滿足多路GPU的互聯(lián)通訊需求,AMD研發(fā)了InfinityFabric技術(shù)。Infinity Fabric擁有先進(jìn)的平臺連接性和可拓展性,最多支持4路GPU互聯(lián)。P2P帶寬是PCIe 4.0的2倍,四GPU集群的P2P帶寬最高可達(dá)552GB/s。
未來,AMD將基于更先進(jìn)的制程打造CDNA2微架構(gòu),進(jìn)入百億億級時代。
Instinct MI 100與安培A100對比
AMD數(shù)據(jù)中心GPU路線圖
AMD Infinity Fabric互聯(lián)
AMD的其他獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍運用在索尼、微軟的本世代和次世代主機(jī)中。如今,AMD的技術(shù)存在于2.2億個家庭暢享游戲和視頻娛樂時所用設(shè)備的核心。
嵌入式GPU的特點包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它們主要使用14納米的GCN 1.4北極星微架構(gòu),TDP覆蓋20W-135W范圍。
Radeon Pro系列顯卡被廣泛應(yīng)用于建筑工程、設(shè)計制造、媒體娛樂等領(lǐng)域,擁有AMD遠(yuǎn)程工作站、AMD Eyefinity多屏顯示技術(shù)、AMD Radeon ProRender等技術(shù)。Radeon Pro系列采用Vega微架構(gòu),7或14納米制程,直接競爭對手是英偉達(dá)的Quadro系列。Radeon Pro移動和臺式工作站的合作伙伴包括蘋果、戴爾、惠普等。
Radeon? Pro VII GPU規(guī)格
英特爾是全球最大的PC GPU供應(yīng)商,也是PC和服務(wù)器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和緩慢的更新速度,一直沒有非常大的起色。進(jìn)入Core i時代后,英特爾通過將核芯顯卡和CPU進(jìn)行捆綁銷售,利用CPU的龐大市場份額,確立了公司在集成GPU領(lǐng)域的寡頭壟斷地位,在此過程中AMD的APU一直是酷睿的直接競爭對手。
2020年,英特爾推出了第12代GPGPU,采用全新的Xe微架構(gòu)和10納米Super Fin制程。相較于第11代核顯,Xe-LP在保持電壓不變的前提下,大幅提升主頻,能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經(jīng)超過同期AMD的Vega核顯和英偉達(dá)的MX系列獨顯。
Xe系列可以細(xì)分為,集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數(shù)據(jù)中心/高性能的Xe-HP、高性能計算的Xe-HPC。
目前,Xe-LP的集成版本已經(jīng)被第11代酷睿所采用。Xe-LP的移動獨立GPU版本DG1和服務(wù)器獨立GPU版本SG1也已發(fā)布。獨顯版在核顯版的基礎(chǔ)上進(jìn)一步提升主頻,并加入了128位4GB LPDDR4X-4266獨立顯存,單精度浮點算力提升15%。
英特爾Xe縱向?qū)Ρ鹊?1代核顯
英特爾Xe產(chǎn)品線
英特爾的集成GPU在形式上表現(xiàn)為核芯顯卡。核芯顯卡使用系統(tǒng)DRAM作為非獨立顯存,通過處理器內(nèi)部的環(huán)狀總線與CPU連接,負(fù)責(zé)處理游戲、視頻娛樂等圖像負(fù)載。
英特爾Xe核顯借助10納米SuperFin的優(yōu)勢,將處理單元最高提升至96個,相較于Icelake的64個提升了50%,并且將連接CPU和GPU的總線帶寬提升一倍,獨立最終緩存(LLC)提高50%,支持最高86GB/s的存儲帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍,超過AMD的R74800U和同期英偉達(dá)的MX350。
Xe核顯的顯示引擎和媒體引擎也都得到加強(qiáng)。接口方面,內(nèi)部支持雙eDP,外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhì)方面,支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。
英特爾Xe核心顯卡和CPU經(jīng)由自家One API驅(qū)動中間層框架和上層應(yīng)用。英特爾One API解決了編碼模型在不同微架構(gòu)間的壁壘,最大化跨平臺表現(xiàn)和最小化開發(fā)成本。
英特爾Tiger Lake 實物圖和Die
英特爾Tiger Lake Xe核顯3DMark性能對比
英特爾獨立GPU分為銳炬Xe MAX和服務(wù)器GPU,均隸屬于Xe LP系列,微架構(gòu)與核顯Xe相同,采用標(biāo)準(zhǔn)封裝和10納米SuperFin制程。
目前,銳炬Xe MAX是第一款基于英特爾 Xe 架構(gòu)的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎(chǔ)上增加了4GBLPDDR4X-4266的獨立顯存,TDP 25W,峰值主頻1650MHz,單精度浮點性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時工作。借助英特爾Deep Link技術(shù),獲得具有強(qiáng)大性能和經(jīng)過功耗優(yōu)化的集成系統(tǒng),以改進(jìn)創(chuàng)造力和游戲體驗。
目前,英特爾服務(wù)器GPU在Xe核顯的基礎(chǔ)上,TDP提升到23W,增加了8GB LPDDR4的獨立顯存,支持高密度、低延遲的安卓云游戲和高密度媒體轉(zhuǎn)碼/編碼,以實現(xiàn)實時的OTT視頻直播。同時,英特爾服務(wù)器GPU支持2顆、4顆獨立GPU的聚合,成倍提高性能。
未來,英特爾還將推出面向游戲和高性能桌面的Xe HPG產(chǎn)品線,增加了光線追蹤等硬件支持,采用傳統(tǒng)封裝,外包生產(chǎn)。英特爾服務(wù)器GPU將使用Xe HPC、Xe HP微架構(gòu),采用2.5D和3D先進(jìn)封裝,10納米SuperFin及更先進(jìn)自家或外包工藝。
英特爾Xe服務(wù)器GPU參數(shù)
英特爾Xe產(chǎn)品、封裝、制程
英特爾銳炬Xe MAX
ARM是全球最大的半導(dǎo)體IP提供商。全世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)。2019Q2,全球近43%的手機(jī)和平板GPU由Mali驅(qū)動。2020第四季度,ARM半導(dǎo)體合作伙伴基于ARM技術(shù)的芯片出貨量達(dá)到67億顆,再創(chuàng)歷史新高,超過其他所有流行的CPU指令集架構(gòu)—X86、ARC、Power、MIPS的總和。
國產(chǎn)SoC中,有95%是基于ARM處理器技術(shù),ARM中國授權(quán)客戶超過150家,基于ARM架構(gòu)的國產(chǎn)芯片出貨量已經(jīng)超過184億。
ARM的Mali GPU按性能可以分為3大類,分別是高性能、主流、高能效。
ARM IP組合和SoC設(shè)計
ARM Mali GPU路線圖
Arm Mali-G78 GPU是用于高端設(shè)備的第二代基于Valhall架構(gòu)的GPU。Mali-G78是性能最高的ArmGPU,可支持復(fù)雜的應(yīng)用,例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機(jī)器學(xué)習(xí)(ML)。
Mali-G78與上一代設(shè)備相比,GPU性能提高了25%,并增強(qiáng)了設(shè)備上的ML功能,從而有助于將高度復(fù)雜的游戲帶入移動設(shè)備。Mali-G78最多支持24個內(nèi)核,并包含異步頂級功能,可確保性能有效地分布在各個內(nèi)核上,從而使圖形運行更加流暢。全新執(zhí)行引擎中的新型融合乘加(FMA)單元可進(jìn)一步降低30%的單元能耗。
在GFXBench Aztec Ruin的跑分中,使用臺積電5納米工藝,搭載24個Mali-G78內(nèi)核的麒麟9000 SoCGPU的幀數(shù)強(qiáng)于驍龍865的Adreno 650,但仍落后于蘋果A14。
ARM Mali-G78
麒麟9000系列的ARM Mali-G78應(yīng)用
Imagination Technologies是一家總部在英國,專注于半導(dǎo)體和相關(guān)知識產(chǎn)權(quán)許可,銷售PowerVR移動圖形處理器,MIPS嵌入式微處理器和消費電子產(chǎn)品。公司還提供無線基帶處理,網(wǎng)絡(luò),數(shù)字信號處理器,視頻和音頻硬件,IP語音軟件,云計算,以及芯片和系統(tǒng)設(shè)計服務(wù)。2017年,董事會宣布公司被中資的Canyon Bridge收購。
Imagination在GPU領(lǐng)域歷史悠久,在其超過25年的歷史中,Imagination先后推出過多代GPU產(chǎn)品,已積累超過1500項GPU專利,曾為蘋果供應(yīng)圖像處理器(GPU),在圖像處理器(GPU)領(lǐng)域與高通、ARM三分天下,曾占GPU市場大約占據(jù)三分之一的份額,在汽車領(lǐng)域更是達(dá)到43%。帶有Imagination IP的芯片產(chǎn)品累計出貨量已超過110億。
Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產(chǎn)品被廣泛應(yīng)用于移動設(shè)備(智能手機(jī)、平板)、汽車(儀表、信息娛樂、輔助駕駛)、沉浸式體驗(AR/VR)、消費電子(電視、機(jī)頂盒)。
根據(jù)Imagination的GPU路線圖,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年復(fù)合增速在30%左右。2021年的C系列GPU將首次加入L4級別的光線追蹤,從硬件層面支持一致性分類的層次包圍體(BVH)和復(fù)雜光線處理,相比目前英偉達(dá)和AMD的L3級別光線追蹤方案可顯著提升能效,實現(xiàn)更好的用戶體驗。
IMG系列GPU路線圖
2020年10月,Imagination推出了全新的IMG B系列GPU,這是公司第一個包含新多核架構(gòu)的GPU IP系列,也是首次采用RISC-V,可提供最高的性能密度。得益于多核架構(gòu)和Imagination圖像壓縮技(IMGIC),B系列相比A系列,功耗降低30%,帶寬降低35%、面積縮減25%,AI算力達(dá)到24 TOPS,且填充率比競品IP內(nèi)核高2.5倍。與A系列相似,B系列GPU也支持AI協(xié)同技術(shù),在提供圖形處理功能的同時,可用備用資源來處理可編程AI等任務(wù)。
IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應(yīng)用,IMG BXM主打圖形處理體驗,IMG BXT面向高性能應(yīng)用,IMG BXS面向未來汽車。
BXS系列符合ISO 26262標(biāo)準(zhǔn),也是迄今為止所開發(fā)的最先進(jìn)汽車GPU IP內(nèi)核。BXS提供了一個完整的產(chǎn)品系列,從入門到高端,可為下一代人機(jī)界面(HMI)、UI顯示、信息娛樂系統(tǒng)、數(shù)字駕艙、環(huán)繞視圖提供解決方案。高計算能力的配置可支持自動駕駛和ADAS。
憑借核心可擴(kuò)展的優(yōu)勢,IMG B系列適用于傳統(tǒng)移動設(shè)備、消費類設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視(DTV)和汽車等市場領(lǐng)域。IMG B系列也可擴(kuò)展至桌面GPU、云端GPU服務(wù)器,且支持自動駕駛和輔助駕駛等。
IMG B系列對比A系列能效提升
Imagination GPU組合
高通的自研GPU Adreno源于收購的AMD移動GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發(fā)布的Adreno 200是首款被集成到驍龍SoC中的GPU,并加入了3D硬件加速功能。
2020年12月,高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構(gòu),采用了三星5納米LPE工藝,大幅提高主頻,使圖形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ,二者將可變速率渲染和響應(yīng)速度分別提升30%和20%。
在GFXBench Aztec Ruin 1080P測試中,Adreno 660的峰值幀數(shù)追平麒麟9000,但相較蘋果A14仍有近20%的差距。
高通Adreno 660 1080P性能對比
高通Adreno 660 GPU
高通Adreno 660參數(shù)
蘋果的自研GPU首次出現(xiàn)于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU,其性能超過采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均為蘋果自研。
2020年,蘋果推出了5納米制程的M1芯片,該款SoC基于A14芯片,在CPU、GPU、NPU、緩存等各方面都進(jìn)行了強(qiáng)化,用于驅(qū)動蘋果的Mac產(chǎn)品。M1芯片的發(fā)布標(biāo)志著蘋果繼2005年放棄IBM的PowerPC指令集轉(zhuǎn)向Intel的X86指令集后的又一大PC領(lǐng)域轉(zhuǎn)換。
采用8核GPU的M1擁有128個執(zhí)行單元,可以同步運行近25000個線程,單精度浮點算力達(dá)到2.6 TFLOPs。M1 GPU的能效表現(xiàn)是當(dāng)時同類PC中集成GPU的三倍,峰值性能最高可達(dá)其他GPU的2倍。
蘋果M1 GPU參數(shù)
蘋果M1能效對比
蘋果M1 8核GPU
國產(chǎn)GPU的發(fā)展落后于國產(chǎn)CPU,直到2014年4月,景嘉微才成功研發(fā)出國內(nèi)首款國產(chǎn)高性能、低功耗GPU芯片—JM5400。在國產(chǎn)GPU的開發(fā)中,GPU對CPU的依賴性和GPU的高研發(fā)難度,阻礙了該產(chǎn)業(yè)的快速發(fā)展。
首先,GPU對CPU有依賴性。GPU結(jié)構(gòu)沒有控制器,必須由CPU進(jìn)行控制調(diào)用才能工作,否則GPU無法單獨工作。所以國產(chǎn)CPU較國產(chǎn)GPU先行一步是符合芯片產(chǎn)業(yè)發(fā)展邏輯的。
再者,GPU技術(shù)難度很高。Moor Insights & Strategy首席分析師莫海德曾表示:“相比CPU,開發(fā)GPU要更加困難,而GPU設(shè)計師、工程師和驅(qū)動程序的作者都要更少。”國內(nèi)人才缺口也是國產(chǎn)GPU發(fā)展緩慢的重要原因之一。在芯片行業(yè),一般來說,培養(yǎng)一位擁有豐富經(jīng)驗并且能夠根據(jù)市場動態(tài)及時修改芯片設(shè)計方案的成熟工程師,至少需要10年。
國產(chǎn)GPU公司及其業(yè)務(wù)簡介
中國GPU市場規(guī)模和潛力非常大,龐大的整機(jī)制造能力意味著巨量的GPU采購。雖然近些年,計算機(jī)整機(jī)和智能手機(jī)產(chǎn)量增長都出現(xiàn)瓶頸,但由于這兩類產(chǎn)品體量龐大,2019年國內(nèi)智能手機(jī)出貨量為3.72億部,電子計算機(jī)整機(jī)年產(chǎn)量達(dá)到3.56億臺,GPU的需求量大且單品價值非常高,市場規(guī)模依然非常可觀。
同時,服務(wù)器GPU伴隨著整機(jī)出貨的快速成長,需求量增長也較為迅速。據(jù)統(tǒng)計,2018年國內(nèi)服務(wù)器出貨量達(dá)到330.4萬臺,同比增長26%,其中互聯(lián)網(wǎng)、電信、金融和服務(wù)業(yè)等行業(yè)的出貨量增速也均超過20%。另外,國內(nèi)在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等新興計算領(lǐng)域,對GPU也存在海量的需求。
據(jù)統(tǒng)計,近年來中國集成電路自給率不斷提升,2018年為13%,預(yù)計2020年有望提升至15%,但仍然處于較低水平。根據(jù)國務(wù)院印發(fā)的《新時期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》等文件,中國芯片自給率要在2025年達(dá)到70%,這將產(chǎn)生8000億元的國產(chǎn)芯片需求。中國芯片產(chǎn)業(yè)發(fā)展空間非常大。
2019年中國大陸集成電路進(jìn)口額結(jié)構(gòu)
2012-2020年中國大陸集成電路自給率
長沙景嘉微電子股份有限公司成立于2006年4月,位于長沙市高新技術(shù)開發(fā)區(qū),公司擁有經(jīng)驗豐富的集成電路設(shè)計團(tuán)隊,是國產(chǎn)GPU的主要參與者,也是唯一自主開發(fā)并已經(jīng)大規(guī)模商用的企業(yè)。
2014年4月,成功研發(fā)出國內(nèi)首款國產(chǎn)高可靠、低功耗GPU芯片-JM5400,具有完全自主知識產(chǎn)權(quán),打破了國外產(chǎn)品長期壟斷我國GPU市場的局面,在多個國家重點項目中得到了成功的應(yīng)用;
2018年8月,公司自主研發(fā)的新一代高性能、高可靠GPU芯片-JM7200流片成功,將國產(chǎn)GPU的技術(shù)發(fā)展提高到新的水平,可為各類信息系統(tǒng)提供強(qiáng)大的顯示能力;
2019年,公司在JM7200基礎(chǔ)上,推出了商用版本-JM7201,滿足桌面系統(tǒng)高性能顯示需求,并全面支持國產(chǎn)CPU和國產(chǎn)操作系統(tǒng),推動國產(chǎn)計算機(jī)的生態(tài)構(gòu)建和進(jìn)一步完善。
景嘉微發(fā)展歷程
景嘉微已完成兩個系列、三款GPU的量產(chǎn)應(yīng)用,產(chǎn)品覆蓋軍用和民用兩大市場。景嘉微第一代GPU JM5400主要運用于軍用市場,替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產(chǎn)品性能和工藝設(shè)計上較JM5400有較大提升,是首例進(jìn)入民用市場的圖形芯片。公司與國內(nèi)主要CPU廠商和計算機(jī)整機(jī)廠商已建立合作關(guān)系。JM7201在JM7200的基礎(chǔ)上對民用市場的桌面應(yīng)用進(jìn)行了優(yōu)化,推出標(biāo)準(zhǔn)MXM和標(biāo)準(zhǔn)PCIE顯卡,在保證性能的同時,降低了功耗,縮小了體積。
景嘉微國產(chǎn)GPU芯片產(chǎn)品線
景嘉微的第二代GPU JM7200系列于2018年8月流片成功,并在2019年3月獲得首個訂單。相較于前代JM5400,JM7200在理論性能上有翻倍的提升,同時制程也進(jìn)化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點性能等方面較2012年發(fā)售,采用完整版GK107核心的英偉達(dá)GT640還有相當(dāng)差距。
各景嘉微GPU參數(shù)對比
2018年12月,景嘉微定增募集10.88億元,用于高性能通用圖形處理器和面向消費電子領(lǐng)域的通用類芯片研發(fā)和產(chǎn)業(yè)化項目。其中,高性能通用圖形處理器項目包括JM9231和JM9271兩款GPU芯片,分別面向不同應(yīng)用領(lǐng)域的中、高檔系列產(chǎn)品。據(jù)公司2020年中報顯示,下一代圖形處理器研發(fā)處于后端設(shè)計階段,研發(fā)進(jìn)程一切順利。
景嘉微JM9系列是繼JM5400和JM7200局部渲染計算內(nèi)核之后,首次采用統(tǒng)一渲染結(jié)構(gòu)的GPU,并且增加了可編程計算模塊數(shù)量。JM9231和JM9271在性能表現(xiàn)分別與英偉達(dá)于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年,大幅提升公司在GPU領(lǐng)域的競爭力。
景嘉微后續(xù)高性能通用GPU性能參數(shù)對比
芯原微電子是依托自主半導(dǎo)體IP,為客戶提供平臺化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體IP授權(quán)服務(wù)的企業(yè)。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統(tǒng)處理器、視頻監(jiān)控、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案,以及5類自主可控的處理器IP,分別為圖形處理器IP、神經(jīng)網(wǎng)絡(luò)處理器IP、視頻處理器IP、數(shù)字信號處理器IP和圖像信號處理器IP,以及1,400多個數(shù)模混合IP和射頻IP,年均流片項目超過40個。主營業(yè)務(wù)的應(yīng)用領(lǐng)域廣泛包括消費電子、汽車電子、計算機(jī)及周邊、工業(yè)、數(shù)據(jù)處理、物聯(lián)網(wǎng)等,主要客戶包括IDM、芯片設(shè)計公司,以及系統(tǒng)廠商、大型物聯(lián)網(wǎng)公司等。
芯原在傳統(tǒng)CMOS、先進(jìn)FinFET和FD-SOI等全球主流半導(dǎo)體工藝節(jié)點上都具有優(yōu)秀的設(shè)計能力,先進(jìn)工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已開始進(jìn)行5nm FinFET 芯片的設(shè)計研發(fā)和新一代 FD-SOI 工藝節(jié)點芯片的設(shè)計預(yù)研。
此外,根據(jù)Ipnest統(tǒng)計,芯原是2019年中國大陸排名第一、全球排名第七的半導(dǎo)體IP授權(quán)服務(wù)供應(yīng)商,全球市場占有率約為1.8%。
芯原股份發(fā)展歷程
2019全球IP企業(yè)市占率排名
芯原GPU IP源于公司在2016年收購的美國嵌入式GPU設(shè)計商圖芯技術(shù)(Vivante)。芯原在GPU IP領(lǐng)域已經(jīng)掌握了支持主流圖形加速標(biāo)準(zhǔn)、自主可控指令集和可拓展性強(qiáng),性能范圍廣泛等核心技術(shù),可廣泛應(yīng)用于IOT、汽車電子、PC等市場。根據(jù) IPnest 報告,芯原GPU IP(含 ISP)市場占有率排名全球前三,僅次于ARM和Imagination,2019 年全球市場占有率約為 11.8%。
目前,芯原在圖形處理器技術(shù)的研發(fā)課題包括通用圖形處理器運算內(nèi)核的持續(xù)優(yōu)化和矢量圖形處理器DDR-Less技術(shù)。矢量GPU DDR-Less技術(shù)可以在不使用外部存儲器DDR的基礎(chǔ)上,實現(xiàn)架構(gòu)清晰、分工明確、易于使用、軟件控制流程簡單等優(yōu)點,適用于物聯(lián)網(wǎng)、可穿戴設(shè)備和車載設(shè)備。
2019全球IP設(shè)計分類
芯原GPU IP的核心技術(shù)和典型應(yīng)用示例
芯原可拓展Vivante GPU IP應(yīng)用涵蓋從低功耗的小型物聯(lián)網(wǎng)MCU(GPU Nano IP系列)到面向汽車和計算機(jī)應(yīng)用的強(qiáng)大SoC(GPUArcturus圖形IP),可滿足各種芯片尺寸和功耗預(yù)算,是具有成本效益的優(yōu)質(zhì)圖形處理器解決方案。
芯原的的圖形處理器技術(shù)支持業(yè)界主流的嵌入式圖形加速標(biāo)準(zhǔn)Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具有自主可控的指令集及專用編譯器,支持每秒2500億次的浮點運算能力及128個并行著色器處理單元。
芯原GPU Nano IP產(chǎn)品線及其可應(yīng)用場景
芯原GPU IP API和操作系統(tǒng)兼容性
芯原股份現(xiàn)有的半導(dǎo)體IP分為處理器IP、數(shù)模混合IP及射頻IP,其中GPU IP隸屬于處理器IP。整體來看,2017-2019芯原得益于不斷豐富的IP儲備及一站式芯片定制業(yè)務(wù)的協(xié)同效應(yīng),公司半導(dǎo)體IP授權(quán)業(yè)務(wù)收入持續(xù)上升,GPU IP的年復(fù)合增速達(dá)13%。2019年GPU IP的營收占公司半導(dǎo)體IP營收的31.29%,主要由于其他類型IP收入上升,GPU IP比重相對下降。
芯原在圖形處理器技術(shù)方面的研發(fā)包括高性能的通用圖形處理器GC8400 IP,該IP適用于汽車電子,目前仍處IP設(shè)計驗證階段,擬達(dá)到每秒1萬億次的浮點運算能力雙倍精密度,512個并行著色器處理單元 。
航錦科技是一家大型化工生產(chǎn)基地,公司的前身是錦西化工總廠。2017下半年,航錦科技通過收購長沙韶關(guān)和威科電子兩家軍工企業(yè),挺進(jìn)電子產(chǎn)業(yè),形成化工+電子雙主業(yè)發(fā)展模式,構(gòu)建起三個支撐板塊(化工、電子、金融)。
航錦科技電子板塊以芯片為核心產(chǎn)品,圍繞高端芯片與通信兩大領(lǐng)域,覆蓋高端芯片(圖形處理芯片/特種FPGA/存儲芯片/總線接口芯片)、北斗3芯片以及通信射頻三大主要產(chǎn)業(yè)。堅持軍民兩用為發(fā)展方向,產(chǎn)品廣泛應(yīng)用于航空、航天、兵器、船舶、電子等領(lǐng)域,擁有廣闊的市場空間。
航錦科技的GPU技術(shù)源于并購的長沙韶光。2018年,長沙韶光自主研發(fā)和合作研發(fā)的第一代及第二代圖形處理芯片(GPU)獲得集成電路布圖設(shè)計登記證書;2019年,長沙韶光自主研發(fā)的第二代改進(jìn)型圖形處理芯片在自主可控設(shè)備領(lǐng)域的應(yīng)用得到驗證,并收獲相關(guān)訂單。
航錦科技自主可控芯片板塊示意圖
上海兆芯集成電路有限公司,簡稱“兆芯”,由上海聯(lián)合投資有限公司(上海市國資委完全出資)和中國臺灣威盛電子共同成立,也是世界上第三家擁有X86授權(quán)的微處理器公司,總部位于上海張江,在北京、西安、武漢、深圳等地設(shè)有研發(fā)中心和分支機(jī)構(gòu)。
公司同時掌握CPU、GPU、芯片組三大核心技術(shù),且具備三大核心芯片及相關(guān)IP設(shè)計與研發(fā)的能力,致力于通過技術(shù)創(chuàng)新與兼容主流的發(fā)展路線,推動信息產(chǎn)業(yè)的整體發(fā)展,并獲評了“高新技術(shù)企業(yè)資質(zhì)”。兆芯提供了桌面整機(jī),服務(wù)器,工業(yè)主板,工業(yè)平臺,系統(tǒng)級解決方案,在黨政辦公,交通,金融,能源,教育,網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用。
2019Q2,兆芯發(fā)布了全新的用于PC的處理器KX-6000系列。KX-6000是業(yè)內(nèi)第一款完整集成CPU、GPU、芯片組的SoC單芯片國產(chǎn)通用處理器。
KX-6000系列處理器采用16納米制程,集成高性能顯卡,支持DP/HDMI/VGA輸出,兼容DirectX、OpenGL、OpenCL等主流API,最高可同時輸出3臺顯示器,分辨率可達(dá)4K。
全新的KX-6000系列處理器擁有出色的兼容性和應(yīng)用體驗,包括Windows操作系統(tǒng),日常辦公應(yīng)用,4K視頻解碼和主流游戲。
兆芯KX-6000系列兼容性和應(yīng)用體驗
兆芯KX-6000處理器芯片架構(gòu)
兆芯KX-6000處理器集成顯卡參數(shù)
兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅(qū)動的情況下,Dota 2游戲性能表現(xiàn)遠(yuǎn)落后英特爾酷睿i5-7400的UHD 630。未來,兆芯還會對KX系列處理器進(jìn)行進(jìn)一步的更新,使用全新的CPU架構(gòu),將內(nèi)存從DDR4升級為DDR5,將總線從PCIe3.0升級至PCIe4.0。內(nèi)存和總線的升級分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。
除了以上集成GPU外,兆芯還計劃發(fā)布一款采用臺積電28納米工藝,TDP 70瓦的獨立GPU。
兆芯KX6000 GPU游戲性能對比
兆芯處理器發(fā)展路線圖
凌久電子創(chuàng)立于1983年,是中國船舶重工集團(tuán)公司第七〇九研究所控股的高新技術(shù)企業(yè)。
凌久電子以嵌入式實時信號處理與高性能計算技術(shù)為基礎(chǔ),面向船舶、航空、航天、兵器等國防電子領(lǐng)域及軌道交通、海工裝備、能源電力、半導(dǎo)體制造等民用高科技領(lǐng)域提供芯片級、模塊級、設(shè)備級、系統(tǒng)級等軟硬件產(chǎn)品;面向科研院所、部隊及軍校提供作定制化軍事仿真服務(wù)。
凌久電子產(chǎn)品包括元器件類產(chǎn)品、基礎(chǔ)硬件設(shè)備、基礎(chǔ)支撐軟件、應(yīng)用類產(chǎn)品四大類。其中國產(chǎn)通用GPU GP101隸屬于元器件類產(chǎn)品。
凌久電子平臺產(chǎn)品
凌久電子元器件類產(chǎn)品分類
凌久電子股權(quán)結(jié)構(gòu)
GP101是由中國船舶重工集團(tuán)第709研究所控股的凌久電子研制,具備完全自主知識產(chǎn)權(quán)的圖形處理器芯片。GP101支持2D/3D圖形加速,支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統(tǒng),支持中標(biāo)麒麟、道等國產(chǎn)操作系統(tǒng),支持龍芯、飛騰、申威等國產(chǎn)處理器。
GP101實現(xiàn)了我國通用3D顯卡零的突破,在信息安全和供貨能力方便有充分的保障,可以廣泛應(yīng)用于軍民多個領(lǐng)域。
七一六所自主研發(fā)的JARI G12是2018年性能最強(qiáng)的國產(chǎn)通用圖形處理器。該處理器采用混合渲染架構(gòu),兼顧數(shù)據(jù)帶寬和渲染延時需求,極大地增強(qiáng)了芯片的靈活性和適應(yīng)性;
提供PCIe 3.0總線,支持x86處理器和龍芯、飛騰、申威等國產(chǎn)處理器;支持4路數(shù)字通道和1路VGA輸出,提供DP、eDP、HDMI、DVI等通用顯示介面,單路數(shù)字通道最大輸出分辨率為3840×2160@60fps,支持?jǐn)U展、復(fù)制顯示和“擴(kuò)展+復(fù)制”顯示模式;
內(nèi)建視頻編解碼硬核,支持2路3840×2160分辨率視頻的編碼、解碼功能;
支持OpenGL 4.5和OpenGL ES 3.0,滿足高性能3D加速和VR顯示需求;
支持OpenCL 2.0,滿足并行計算和云計算的使用需求;
集成張量加速計算硬核,支持AI計算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統(tǒng),同時支持中標(biāo)麒麟、JARI-Works、道等國內(nèi)自主可控操作系統(tǒng),具備健全的生態(tài)環(huán)境體系。
JARI G12架構(gòu)示意圖
芯動科技是中國一站式IP和芯片定制領(lǐng)軍企業(yè),提供全球6大工藝廠(臺積電/三星/格芯/中芯國際/聯(lián)華電子/英特爾)從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案,聚焦先進(jìn)制程。
芯動科技15年來立足本土發(fā)展,所有IP和產(chǎn)品全自主可控,連續(xù)十年中國市場份額領(lǐng)先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業(yè)。
在高性能計算/多媒體&汽車電子/IoT物聯(lián)網(wǎng)等領(lǐng)域,芯動解決方案具有國際先進(jìn)水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含 PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像處理器GPU和多媒體處理內(nèi)核等多種技術(shù)。芯動科技的芯片定制,跨工藝跨封裝,涉及從需求到產(chǎn)品, 能端到端為客戶加速從規(guī)格、設(shè)計到流片量產(chǎn),及封裝成型全流程。
芯動科技一站式IP系列
芯動科技高性能計算平臺IP
2020年10月13日,芯動科技與Imagination達(dá)成合作。采用最前沿的多晶粒芯片(chiplet)和GDDR6高速顯存等SOC創(chuàng)新,芯動科技將全球首發(fā)Imagination全新頂配BXT多核架構(gòu)。
在信創(chuàng)和算力安全方面,“風(fēng)華”系列GPU內(nèi)置國產(chǎn)物理不可克隆iUnique Security PUF信息安全加密技術(shù),提升數(shù)據(jù)安全和算力抗攻擊性,支持桌面電腦和數(shù)據(jù)中心GPU計算自主可控生態(tài)。
“風(fēng)華”系列GPU自帶浮點和智能3D圖形處理功能,全定制多級流水計算內(nèi)核,兼具高性能渲染和智能AI算力,還可級聯(lián)組合多顆芯片合并處理能力,靈活性強(qiáng),適配國產(chǎn)桌面市場1080P/4K/8K高品質(zhì)顯示,支持VR/AR/AI,多路服務(wù)器云桌面、5G數(shù)據(jù)中心、云教育、云游戲、云辦公等中國新基建5G風(fēng)口下的大數(shù)據(jù)圖形應(yīng)用場景。
GPU Turbo是一種軟硬協(xié)同的圖形加速技術(shù),可以減少無用渲染次數(shù),優(yōu)化或合并渲染區(qū)域。通過算法,將相關(guān)運算放在一個或相鄰的寄存器中,以此來優(yōu)化圖形處理效率。
GPU Turbo技術(shù)打通了EMUI操作系統(tǒng)以及GPU和CPU之間的處理瓶頸,在系統(tǒng)底層對傳統(tǒng)的圖形處理框架進(jìn)行了重構(gòu),實現(xiàn)了軟硬件協(xié)同,使得GPU圖形處理整體效率得到大幅提升。
2018年6月發(fā)布了GPU Turbo 1.0,圖形處理效率提高60%,同時做到更省電,保證高畫質(zhì)。
2018年9月發(fā)布了GPU Turbo 2.0,游戲場景下功耗下降可達(dá)13.6%,新增支持多款主流游戲,同時針對支持的游戲中關(guān)鍵&極限場景(如團(tuán)戰(zhàn)、載具等)進(jìn)行了重點打磨與優(yōu)化。
2019年4月GPU Turbo全新升級,不僅帶來主流游戲接近滿幀運行的酣暢體驗,功耗的持續(xù)降低也帶來了續(xù)航時間的提升。累計支持60款國內(nèi)游戲。
GPU Turbo 2.0能效對比
中科院計算所于2001年成立龍芯課題組,開始研制龍芯系列處理器,得到了中科院、863、973、核高基等項目大力支持,完成了十年的核心技術(shù)積累。2010年4月,中國科學(xué)院和北京市共同牽頭出資入股,成立龍芯中科技術(shù)有限公司,龍芯正式從研發(fā)走向產(chǎn)業(yè)化。
目前,龍芯自主研發(fā)的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理器的芯片組,通過HT3.0接口與處理器相連,集成GPU、顯示控制器和獨立顯存接口,外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口,可以滿足桌面和服務(wù)器領(lǐng)域?qū)O接口的應(yīng)用需求,并通過外接獨立顯卡的方式支持高性能圖形應(yīng)用需求。
雖然龍芯7A1000橋片的GPU性能一般,但是橋片作為CPU產(chǎn)業(yè)鏈的一環(huán),龍芯已經(jīng)實現(xiàn)CPU、橋片和GPU上完全自主化,打通了CPU產(chǎn)業(yè)鏈上每一個環(huán)節(jié)。
2020年,龍芯成立六支研發(fā)突擊隊,分別為3A5000突擊隊、3C5000突擊隊、7A2000突擊隊、2K2000突擊隊、GPU突擊隊、PCIE突擊隊。這六支突擊隊的目的就是要把2-3年的工作,在一年內(nèi)干完!
龍芯7A1000
龍芯7A1000 GPU相關(guān)參數(shù)
芯瞳半導(dǎo)體成立于2019年,主要業(yè)務(wù)包括GPU芯片設(shè)計、異構(gòu)計算平臺方案、嵌入式顯示系統(tǒng)解決方案、GPU應(yīng)用部署解決方案。公司著力于研發(fā)高性能的GPU芯片,為用戶提供以自研GPU芯片為核心的解決方案,致力于打造業(yè)界領(lǐng)先的GPU芯片設(shè)計平臺,目標(biāo)是成為國際一流的GPU芯片設(shè)計企業(yè)。公司創(chuàng)始團(tuán)隊在GPU領(lǐng)域有著超過10年的學(xué)術(shù)和工程經(jīng)驗,是一支軟硬件全棧式支持的研發(fā)團(tuán)隊。
公司的GPU架構(gòu)采用了業(yè)界主流的統(tǒng)一渲染架構(gòu),并具有高度可擴(kuò)展的互聯(lián)結(jié)構(gòu)和計算陣列,便于芯片后續(xù)迭代升級。經(jīng)過多年的積累,團(tuán)隊構(gòu)建了芯片建模虛擬平臺,通過該虛擬平臺,團(tuán)隊可以快速地完成GPU相關(guān)軟件的研發(fā)和軟件生態(tài)的部署,與此同時,在該虛擬平臺上快速地對芯片架構(gòu)進(jìn)行驗證,從而縮短GPU芯片的設(shè)計驗證周期,提升GPU芯片的設(shè)計效能。
公司第一代GPU芯片(GenBu01)初測已成功,已與統(tǒng)信、麒麟及昆侖完成適配,目前正在為小批量量產(chǎn)做最終測試。 GenBu01主要面向的客戶為需要定制嵌入式計算機(jī)產(chǎn)品的客戶以及為國產(chǎn)替代領(lǐng)域提供信創(chuàng)辦公PC的ODM/OEM廠商。
芯瞳GenBu01參數(shù)
天數(shù)智芯于2018年正式啟動GPGPU芯片設(shè)計,是中國第一家GPGPU高端芯片及超級算力提供商。天數(shù)智芯重點打造自主可控、國際一流的通用、標(biāo)準(zhǔn)、高性能云端計算芯片GPGPU,從芯片端解決計算力問題;并推出面向5G技術(shù)需求的邊緣云端推理GPGPU,提供對當(dāng)前進(jìn)口主流GPGPU體系的無縫兼容和市場化選擇。2021年1月15日,天數(shù)智芯成功點亮自研7納米制程GPGPU云端訓(xùn)練芯片,性能達(dá)市場主流產(chǎn)品的兩倍。該芯片量產(chǎn)后將廣泛應(yīng)用于AI訓(xùn)練、高性能計算(HPC)等場景,服務(wù)于教育、互聯(lián)網(wǎng)、金融、自動駕駛、醫(yī)療、安防等各相關(guān)行業(yè),賦能AI智能社會。
天數(shù)智芯7納米GPGPU高端自研云端訓(xùn)練芯片的產(chǎn)品優(yōu)勢包括:全方位生態(tài)兼容、高性能有效算力、指令集編程架構(gòu)、軟硬件全棧支持、全自主知識產(chǎn)權(quán)。
天數(shù)智芯GPGPU BI芯片參數(shù)
壁仞科技創(chuàng)立于2019年,團(tuán)隊由國內(nèi)外芯片和云計算領(lǐng)域核心專業(yè)人員、研發(fā)人員組成,在GPU、DSA(專用加速器)和計算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨到的行業(yè)洞見。
壁仞科技致力于開發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計算,逐步在人工智能訓(xùn)練和推理、圖形渲染、高性能通用計算等多個領(lǐng)域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。
沐曦集成電路專注于設(shè)計具有完全自主知識產(chǎn)權(quán),針對異構(gòu)計算等各類應(yīng)用的高性能通用GPU芯片。公司致力于打造國內(nèi)最強(qiáng)商用GPU芯片,產(chǎn)品主要應(yīng)用方向包含傳統(tǒng)GPU及移動應(yīng)用,人工智能、云計算、數(shù)據(jù)中心等高性能異構(gòu)計算領(lǐng)域。
對于研發(fā)的方向,沐曦表示將采用業(yè)界最先進(jìn)的5nm工藝技術(shù),研發(fā)全兼容CUDA及ROCm生態(tài)的國產(chǎn)高性能GPU芯片,滿足HPC、數(shù)據(jù)中心及AI等方面的計算需求。GPU將采用原創(chuàng)專利保護(hù)的可重構(gòu)GPU架構(gòu),突破傳統(tǒng)GPU芯片能效瓶頸;采用數(shù)據(jù)壓縮,數(shù)據(jù)廣播以及共享硬件加速單元等先進(jìn)技術(shù),大幅度優(yōu)化核心算力能耗比。
沐曦高性能GPU研發(fā)項目
登臨科技成立于2017年11月,是一家專注于為新興計算領(lǐng)域提供高性能、高功效計算平臺的高科技企業(yè)。公司的產(chǎn)品是以芯片為核心的系統(tǒng)解決方案,在所有核心IP上堅持自研路線。登臨科技已完成由元禾璞華、元生資本聯(lián)合領(lǐng)投的A+輪融資,包括北極光在內(nèi)的老股東持續(xù)在本輪加碼跟進(jìn)。登臨科技的首款GPU+(軟件定義的片內(nèi)異構(gòu)通用人工智能處理器)產(chǎn)品已成功回片通過測試,開始客戶送樣,公司團(tuán)隊具備架構(gòu)、系統(tǒng)、軟件、硬件、芯片、驗證等方面的綜合能力。
登臨科技GoldwasserTM GPU+產(chǎn)品在現(xiàn)有市場主流的GPU架構(gòu)上,創(chuàng)新采用軟硬件協(xié)同的異構(gòu)設(shè)計。GPU+異構(gòu)設(shè)計讓產(chǎn)品在對客戶實際業(yè)務(wù)繼承在現(xiàn)有生態(tài)上的投入、在保證極高兼容性的同時,相比傳統(tǒng)GPU在AI計算上性能和能效均有明顯提升,大大降低了外部帶寬的需求,顯著降低客戶總擁有成本。
摩爾線程創(chuàng)立于2020年10月,去年12月獲得天使輪融資,今年2月22日獲得Pre-A輪融資。摩爾線程致力于構(gòu)建中國視覺計算和人工智能領(lǐng)域計算平臺,研發(fā)全球領(lǐng)先的自主創(chuàng)新GPU知識產(chǎn)權(quán),其GPU產(chǎn)品線覆蓋通用圖形計算和高性能計算。公司核心成員主要來自英偉達(dá)、微軟、英特爾、AMD、ARM等,覆蓋GPU研發(fā)設(shè)計、生產(chǎn)制造、市場銷售、服務(wù)支持等完整架構(gòu)。
翰博半導(dǎo)體成立于2018年12月,立志于發(fā)展成為國際頂尖的芯片公司,立足于中國市場,填補(bǔ)國內(nèi)市場國產(chǎn)芯片的空白,為智能應(yīng)用提供高效算力,為人工智能創(chuàng)新以及應(yīng)用落地賦能。
翰博半導(dǎo)體擁有國內(nèi)外專家組成的團(tuán)隊。公司核心員工來自世界頂級的高科技公司,平均擁有15年以上的相關(guān)芯片,軟件設(shè)計經(jīng)驗。
瀚博的產(chǎn)品注重計算機(jī)視覺及視頻處理的優(yōu)化,提供豐富的特性,高效的性能/功耗;適用多個人工智能領(lǐng)域。產(chǎn)品覆蓋從邊到云,SOC及服務(wù)器市場。
翰博半導(dǎo)體CEO—錢軍擁有25年以上高端芯片設(shè)計經(jīng)驗和40多款芯片設(shè)計和量產(chǎn)的經(jīng)驗,帶隊設(shè)計量產(chǎn)業(yè)界第一顆7納米圖像處理器和AI服務(wù)器芯片,曾任AMD高管Senior Director,直接負(fù)責(zé)設(shè)計團(tuán)隊超過800人,全面負(fù)責(zé)GPU( 圖像處理器和AI服務(wù)器)芯片設(shè)計和生產(chǎn),現(xiàn)在市場上所有AMD Radeon圖像處理器和AI服務(wù)器都是由其帶隊開發(fā),包括多個系列DGPU和MI系列產(chǎn)品。
燧原科技成立于2018年3月,專注于人工智能領(lǐng)域云端算力平臺,致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,提供自主知識產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品。
燧原科技的產(chǎn)品技術(shù)由訓(xùn)練、推理、軟件平臺構(gòu)成。其中,訓(xùn)練業(yè)務(wù)包含加速卡 “云燧T10” 和“云燧T11”;推理業(yè)務(wù)包含加速卡 “云燧i10”;軟件平臺包含“馭算”。
“云燧”系列加速卡采用自研DTU架構(gòu),支持ESL高速互聯(lián)和開放生態(tài)。 “云燧”芯片采用格羅方德的12nm FinFET工藝,結(jié)合 2.5D先進(jìn)封裝,擁有141億晶體管和16GB HBM2顯存,在FP32的算力和能效比方面領(lǐng)先GPU。
計算及編程平臺“馭算”,由燧原自主研發(fā),支持主流深度學(xué)習(xí)框架,并針對邃思芯片進(jìn)行了針對性優(yōu)化。
智東西認(rèn)為,GPU設(shè)計之初是為了圖像處理,但是隨著技術(shù)的不斷迭代升級,GPU的功能已經(jīng)不僅限于“畫圖”,憑借在并行處理和通用計算的優(yōu)勢,GPU在服務(wù)器、汽車、人工智能、邊緣計算等領(lǐng)域已經(jīng)開始大放異彩。現(xiàn)階段,雖然國產(chǎn)GPU與英偉達(dá)、AMD等世界巨頭差距明顯,但在一些空白的細(xì)分領(lǐng)域或許有很大的“彎道超車”空間。