欄目導(dǎo)航

新聞資訊

新聞資訊

、前言

Selenium是一個開源自動化測試工具，可以跨瀏覽器和平臺對web應(yīng)用程序執(zhí)行功能、回歸和負(fù)載測試。盡管Selenium是最好的工具之一，但它確實有一些缺點，它經(jīng)常面臨跨瀏覽器兼容性問題，導(dǎo)致測試失敗，對移動應(yīng)用程序的支持也有限，最重要的是，Selenium沒有內(nèi)置的報告選項等。

2、Rapise

Rapise是一個強(qiáng)大的自動化測試框架，用于web、移動和桌面應(yīng)用程序以及API的無腳本測試，它還幫助用戶使用多種技術(shù)管理測試。

Rapise易于使用，并允許用戶在其電子表格編輯器中編輯記錄的測試。另一方面，它提供對MS Dynamics 365和Java Applets的支持。

功能特點：

錄制一次播放任意位置：使用Rapise，你可以在多個瀏覽器上播放錄制，支持錄制期間的實時驗證，還可以使用其易于使用的可視化關(guān)鍵字驅(qū)動框架RVL來編輯錄制的測試。
測試細(xì)化：Rapise允許你創(chuàng)建測試，并通過其基于對象的方法使用拖放來關(guān)注測試細(xì)化。由于Rapise強(qiáng)大的維護(hù)功能和自我修復(fù)的人工智能驅(qū)動定位器，對象可以同步更新。
MS-Dynamics支持：此應(yīng)用程序內(nèi)置了對第三方CI/CD/ALM解決方案和復(fù)雜應(yīng)用程序（如MS-Dynamis 365、NAV、CRM和AX）的支持。它還支持Salesforce Classic和Lightning。
智能集成：Rapise集成了一些最好的測試管理工具，如MS-Team System和Spira Test。它也很容易使用Javascript和第三方庫進(jìn)行擴(kuò)展，因此可以在適當(dāng)?shù)臅r間運行和檢查測試，并每次跟蹤到適當(dāng)?shù)奈恢谩?/span>
頂級支持：Rapise在一個與開源標(biāo)準(zhǔn)集成的基于JavaScript的引擎上運行，對Selenium測試和Appium具有一流的支持，它們與頂級單元測試框架掛鉤。
定價：免費試用30天，付費計劃的起價為每月299.99美元。

優(yōu)點：

適用于桌面、web、移動和應(yīng)用程序編程接口。
支持Windows OS的大多數(shù)版本。
錄制/播放時輕松捕獲屏幕截圖。

官方網(wǎng)址：

https://www.inflectra.com/Products/Rapise/

3、Testim

Testim是領(lǐng)先的人工智能驅(qū)動測試自動化平臺，解決了測試中的兩個最大挑戰(zhàn)，即編寫速度慢和測試不穩(wěn)定，它可以快速擴(kuò)展測試覆蓋范圍，并使發(fā)布保持正常。

功能特點：

高靈活性：創(chuàng)建自我修復(fù)、自動改進(jìn)的端到端編碼和無代碼測試，具有無與倫比的靈活性，可以在瀏覽器內(nèi)部或外部運行。
降低了維護(hù)成本：有了Testim，你不必面對高昂的維護(hù)費用，基于ML和AI的智能定位器允許你的測試在任何應(yīng)用程序更改的情況下保持穩(wěn)定。
縮放應(yīng)用程序：Testim允許你通過TestOps縮放應(yīng)用程序質(zhì)量，你可以擴(kuò)展測試和管理關(guān)鍵見解的能力。
更快的測試覆蓋率：你可以在不編寫復(fù)雜代碼的情況下開發(fā)高質(zhì)量的測試，測試開發(fā)得更快，而且不費什么力氣。
定價：你可以免費使用Testim14天，移動計劃起價為每年5400美元。

優(yōu)點：

可以輕松擴(kuò)展質(zhì)量計劃。
使用根本原因分析快速排除測試故障。
跨瀏覽器測試在Testim或第三方網(wǎng)絡(luò)上并行運行。

官方網(wǎng)址：

https://www.testim.io/

4、Subject7

Subject7是一個基于云的解決方案，可以無代碼地執(zhí)行測試自動化，它將所有測試統(tǒng)一在一個平臺中，并使任何人都能夠成為自動化專家。

功能特點：

輕松集成：使用本機(jī)插件、應(yīng)用程序內(nèi)集成和開放API，輕松與DevOps/Agile工具集成，它還提供在云端或具有企業(yè)級安全性的內(nèi)部部署中的高規(guī)模并行執(zhí)行。
組合測試解決方案：使用一個平臺來完成所有端到端自動化測試過程，你可以將它們重新用于任何進(jìn)一步的功能和非功能測試。
AI web界面：AI web用戶界面可以輕松地將你轉(zhuǎn)變?yōu)樽詣踊瘻y試專家，無論你是業(yè)務(wù)測試人員還是非技術(shù)人員，該接口都允許你執(zhí)行測試流。
統(tǒng)一測試過程：它減少了創(chuàng)建全渠道測試所需的資源和工具。
開源技術(shù)：Subject7使用頂級開源技術(shù)，如Selenium、Appium、SikuliX、JMeter、ZAP和其他技術(shù)來開發(fā)統(tǒng)一的測試自動化解決方案。
定價：你可以請求免費演示，以更好地了解該平臺。

優(yōu)點：

靈活的缺陷報告，以及結(jié)果的視頻捕獲。
平臺符合SOC2 Type2，確保了強(qiáng)大的安全標(biāo)準(zhǔn)。

官方網(wǎng)址：

https://www.subject7.com/

5、OpenText UFT One

OpenText UFT One是最強(qiáng)大的商業(yè)Selenium替代品和測試自動化工具之一。最初由Mercury Interactive開發(fā)，后來被HPE、MicroFocus收購，現(xiàn)在是Open Text Corporation的股東。

它是對功能和回歸測試有用的最佳Selenium測試替代方案之一。UFT支持web和各種開發(fā)環(huán)境，如SAP、Oracle、Seibel等。

功能特點：

提高測試覆蓋率：UFT可以測試應(yīng)用程序的后端服務(wù)部件和前端功能，以在不同的API和用戶界面之間實現(xiàn)更好的測試覆蓋率。
跨瀏覽器支持：該selenium替代工具支持跨瀏覽器和多平臺測試。
語言用法：QTP/UFT使用VBScript語言，比其他測試腳本語言更容易。
升級的對象識別：它配備了高級OCR和基于人工智能的ML，以更好地識別對象。
定價：可以免費試用UFT30天。

優(yōu)點：

允許在多臺計算機(jī)上分發(fā)測試。
可視化測試腳本設(shè)計，有助于更快地修改和升級測試。
基于圖像的對象識別是業(yè)界最好的。

官方網(wǎng)址：

https://www.opentext.com/zh-cn/products/uft-one

6、Cypress

Cypress是一種用于web環(huán)境的開源測試自動化解決方案，與Selenium測試相比，該工具與當(dāng)前的開發(fā)實踐密切相關(guān)。

它是Selenium的最佳替代品之一，此自動化測試工具自動重新加載測試中所做的每個更改。

功能特點：

應(yīng)用程序預(yù)覽：它是一種Python selenium替代品，具有命令日志和應(yīng)用程序預(yù)覽，顯示測試執(zhí)行期間web應(yīng)用程序上的精確自動化操作。
完美優(yōu)化：你可以在CI管道中運行此工具，以進(jìn)行spect優(yōu)先級劃分、負(fù)載平衡或測試并行化，這些因素確保更快的反饋結(jié)果。
定價：Cypress是免費的。然而，也有一些付費的高級版本可用。

優(yōu)點：

測試狀態(tài)菜單功能允許查看多少測試通過或失敗。
它獲取測試運行的快照，對于無頭執(zhí)行，它需要整個測試運行的視頻。
Cypress在繼續(xù)之前自動等待命令和斷言。

官方網(wǎng)址：

https://www.cypress.io/

7、IBM DevOps Test UI

IBM DevOps Test UI自動化的功能和回歸測試工具可以幫助你實現(xiàn)精確的測試結(jié)果，它是最好的Selenium替代軟件之一，提供自動化的功能、回歸、GUI和數(shù)據(jù)驅(qū)動測試。

它支持一系列應(yīng)用程序，如Java、Siebel、SAP、Net、PowerBuilder、Ajax等，此功能測試工具自動完成代碼，并提供高級調(diào)試選項。

功能特點：

高效的可重用測試腳本：它允許開發(fā)團(tuán)隊創(chuàng)建可以輕松重用的相關(guān)測試腳本，顯著提高整體效率。
與團(tuán)隊成員協(xié)作：你可以與團(tuán)隊成員共享不同的功能測試，在集成了DevOps測試中心的混合平臺上運行這些測試。
ScriptAssure技術(shù)：使用該技術(shù)，你可以管理不同的UI更改，同時限制開銷維護(hù)過程。

優(yōu)點：

與其他第三方軟件輕松集成。
通過屏幕截圖進(jìn)行可視化編輯。
使用Eclipse在Java中編寫測試代碼變得更容易，從而簡化了編碼過程。

官方網(wǎng)址：

https://www.ibm.com/cn-zh/products/devops-test/ui

8、Telerik Test Studio

Test Studio是由Progress開發(fā)的軟件自動化工具，它支持自動化應(yīng)用程序，如AJAX、HTML5、JavaScript、Silverlight、WPF、MVC、iOS、Android和PHP。

它是最好的Selenium測試替代方案之一，具有本機(jī)跨瀏覽器支持，是一個記錄和回放工具。Telerik UI控件也有本機(jī)支持，你還可以測試HTML彈出窗口和瀏覽器對話框。

功能特點：

最小維護(hù)：通過多機(jī)制元素搜索、智能建議和有效的元素檢測，你的維護(hù)工作量將減少。
監(jiān)控質(zhì)量：通過基于web的結(jié)果和報告的Executive Dashboard跟蹤自動化和應(yīng)用程序質(zhì)量。
無代碼測試：你可以使用此工具對任何網(wǎng)站進(jìn)行功能、負(fù)載、API和回歸測試，而無需編寫代碼。
定價：你可以獲得30天的免費試用期。基本計劃起價為2499美元。

優(yōu)點：

可以執(zhí)行API和負(fù)載測試。
強(qiáng)大的對象存儲庫功能。
支持持續(xù)集成。

官方網(wǎng)址：

https://www.telerik.com/teststudio

9、Virtuoso

Virtuoso利用人工智能在沒有代碼的情況下自動化端到端測試，即使是在最動態(tài)的應(yīng)用程序上，無論是與iFrames交互還是存儲動態(tài)數(shù)據(jù)，Virtuoso都支持它作為無代碼測試自動化框架工作。

使用自然語言編程（像編寫手動測試腳本一樣的簡單英語）、集成API測試和可視化回歸測試來構(gòu)建功能測試，以獲得端到端測試覆蓋率。Virtuoso的智能對象識別使用人工智能從簡單提示中找到xPaths和選擇器，并且是自我維護(hù)的。

功能特點：

最小編碼：你可以用簡單的英語為不同的應(yīng)用程序編寫測試，它還可以增加你的規(guī)模和速度，在構(gòu)建應(yīng)用程序之前，可以從需求中使用自然語言進(jìn)行測試。
自愈：使用AI驅(qū)動的自愈功能消除測試維護(hù)，當(dāng)測試自我修復(fù)時，它可以節(jié)省大量的精力和時間。
人工智能驅(qū)動：你可以使用人工智能生成概要和測試數(shù)據(jù)，它還根據(jù)你用英語編寫的命令創(chuàng)建Jscript擴(kuò)展。
端到端測試：該工具將功能測試與可視化回歸測試功能和API相結(jié)合，用于全面測試。
快照測試：Virtuoso還提供快照測試來解決視覺錯誤，并從基線中識別視覺回歸，你還可以比較應(yīng)用程序的不同版本之間的屏幕截圖。
定價：Virtuoso提供14天免費試用，Virtuoso XL起價為每年15000美元。

優(yōu)點：

將測試執(zhí)行時間提高10倍。
數(shù)據(jù)最多可以保留6個月。
每年執(zhí)行多達(dá)12萬次。

官方網(wǎng)址：

https://www.virtuoso.qa/

10、Playwright

微軟開源自動化測試工具 Playwright，支持主流瀏覽器，包括：Chrome、Firefox、Safari 等，同時支持以無頭模式、有頭模式運行，并提供了同步、異步的 API，可以結(jié)合 Pytest 測試框架使用，并且支持瀏覽器端的自動化腳本錄制等功能。

功能特點：

跨瀏覽器：Playwright支持所有現(xiàn)代渲染引擎，包括Chromium、WebKit和Firefox。
跨平臺：在Windows、Linux和macOS上進(jìn)行本地或CI、無頭或有頭測試。
跨語言：在TypeScript、JavaScript、Python、.NET、Java中使用Playwright API。
測試移動網(wǎng)絡(luò)：適用于Android和Mobile Safari的Google Chrome原生移動仿真，相同的渲染引擎適用于你的桌面和云端。
定價：Playwright是免費的。

優(yōu)點：

跨瀏覽器、跨平臺、跨語言。
支持瀏覽器端的自動化腳本錄制。

官方網(wǎng)址：

https://playwright.dev/

11、DrissionPage

DrissionPage是一款基于Python的高效網(wǎng)頁自動化工具。它不僅能夠操控瀏覽器，還能發(fā)送和接收數(shù)據(jù)包，并將這兩種功能完美融合。既保留了瀏覽器自動化的便捷性，又具備了requests庫的高效處理能力。

功能特點：

WebDriver驅(qū)動：無需特定的WebDriver驅(qū)動，免去下載不同版本驅(qū)動的煩惱。
iframe元素：支持跨iframe元素定位，無需頻繁切換，簡化操作流程。將iframe當(dāng)作常規(guī)元素處理，直接在內(nèi)部進(jìn)行元素搜索，邏輯更加清晰。
執(zhí)行效率：能夠同時操控瀏覽器內(nèi)多個標(biāo)簽頁，即便標(biāo)簽頁處于非活躍狀態(tài)也無需進(jìn)行切換。
保存圖片：可直接利用瀏覽器緩存保存圖片，避免使用圖形界面進(jìn)行手動另存。
定價：DrissionPage是免費的。

優(yōu)點：

功能強(qiáng)大，集成了眾多人性化設(shè)計和實用功能。
語法簡明優(yōu)雅，代碼簡潔，非常適合初學(xué)者使用。

官方網(wǎng)址：

https://drissionpage.cn/

GPU是Graphics Processing Unit（圖形處理器）的簡稱，它是一種專門在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備（如平板電腦、智能手機(jī)等）上運行繪圖運算工作的微處理器。圖形處理器是NVIDIA公司（NVIDIA）在1999年8月發(fā)表NVIDIA GeForce 256（GeForce 256）繪圖處理芯片時首先提出的概念，在此之前，電腦中處理影像輸出的顯示芯片，通常很少被視為是一個獨立的運算單元。而對手冶天科技（ATi）亦提出視覺處理器（Visual Processing Unit）概念。圖形處理器使顯卡減少對中央處理器（CPU）的依賴，并分擔(dān)部分原本是由中央處理器所擔(dān)當(dāng)?shù)墓ぷ鳎绕涫窃谶M(jìn)行三維繪圖運算時，功效更加明顯。圖形處理器所采用的核心技術(shù)有硬件坐標(biāo)轉(zhuǎn)換與光源、立體環(huán)境材質(zhì)貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。

圖形處理器可單獨與專用電路板以及附屬組件組成顯卡，或單獨一片芯片直接內(nèi)嵌入到主板上，或者內(nèi)置于主板的北橋芯片中，現(xiàn)在也有內(nèi)置于CPU上組成SoC的。個人電腦領(lǐng)域中，在2007年，90%以上的新型臺式機(jī)和筆記本電腦擁有嵌入式繪圖芯片，但是在性能上往往低于不少獨立顯卡。但2009年以后，AMD和英特爾都各自大力發(fā)展內(nèi)置于中央處理器內(nèi)的高性能集成式圖形處理核心，它們的性能在2012年時已經(jīng)勝于那些低端獨立顯卡，這使得不少低端的獨立顯卡逐漸失去市場需求，兩大個人電腦圖形處理器研發(fā)巨頭中，AMD以AMD APU產(chǎn)品線取代旗下大部分的低端獨立顯示核心產(chǎn)品線。而在手持設(shè)備領(lǐng)域上，隨著一些如平板電腦等設(shè)備對圖形處理能力的需求越來越高，不少廠商像是高通（Qualcomm）、Imagination、ARM、NVIDIA等，也在這個領(lǐng)域“大顯身手”。

GPU不同于傳統(tǒng)的CPU，如Intel i5或i7處理器，其內(nèi)核數(shù)量較少，專為通用計算而設(shè)計。相反，GPU是一種特殊類型的處理器，具有數(shù)百或數(shù)千個內(nèi)核，經(jīng)過優(yōu)化，可并行運行大量計算。雖然GPU在游戲中以3D渲染而聞名，但它們對運行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU允許某些計算比傳統(tǒng)CPU上運行相同的計算速度快10倍至100倍。

本期的智能內(nèi)參，我們推薦方正證券的報告《GPU研究框架》，從GPU的底層技術(shù)、產(chǎn)業(yè)鏈發(fā)展情況和國產(chǎn)GPU的自主之路三方面全面解析GPU及其產(chǎn)業(yè)。

本期內(nèi)參來源：方正證券

原標(biāo)題：

《GPU研究框架》

作者：陳杭等

一、GPU：專用計算時代的“畫師”

GPU（graphics processing unit）圖形處理器，又稱顯示核心、視覺處理器、顯示芯片，是一種在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備（如平板電腦、智能手機(jī)等）上做圖像和圖形相關(guān)運算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計算機(jī)減少了對CPU的依賴，并解放了部分原本CPU的工作。在3D圖形處理時，GPU采用的核心技術(shù)有硬件T&L（幾何轉(zhuǎn)換和光照處理）、立方環(huán)境材質(zhì)貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等，而硬件T&L技術(shù)可以說是GPU的標(biāo)志。

GPU的內(nèi)部組成部分

GPU核心及PCB板

GPU的微架構(gòu)（Micro Architecture）是一種給定的指令集和圖形函數(shù)集合在處理器中執(zhí)行的方法。圖形函數(shù)主要用于繪制各種圖形所需要的運算。當(dāng)前和像素、光影處理、3D坐標(biāo)變換等相關(guān)運算由GPU硬件加速來實現(xiàn)。相同的指令集和圖形函數(shù)集合可以在不同的微架構(gòu)中執(zhí)行，但實施的目的和效果可能不同。優(yōu)秀的微架構(gòu)對GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用，GPU體系是GPU微架構(gòu)和圖形API的集合。

以目前最新的英偉達(dá)安培微架構(gòu)為例，GPU微架構(gòu)的運算部份由流處理器(Stream Processor，SP)、紋理單元（Texture mapping unit, TMU)、張量單元（Tensor Core）、光線追蹤單元（RT Cores）、光柵化處理單元（ROPs）組成。這些運算單元中，張量單元，光線追蹤單元由NVIDIA在伏特/圖靈微架構(gòu)引入。

除了上述運算單元外，GPU的微架構(gòu)還包含L0/L1操作緩存、Warp調(diào)度器、分配單元（Dispatch Unit）、寄存器堆（register file）、特殊功能單元（Special function unit，SFU）、存取單元、顯卡互聯(lián)單元（NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存（HBM2）等接口。

英偉達(dá)安培內(nèi)核概覽

英偉達(dá)安培內(nèi)核“SM”單元

GPU的流處理器單元是NVIDIA對其統(tǒng)一架構(gòu)GPU內(nèi)通用標(biāo)量著色器的命名。SP單元是全新的全能渲染單元，是繼Pixel Pipelines（像素管線）和Vertex Pipelines（頂點管線）之后新一代的顯卡渲染技術(shù)指標(biāo)。SP單元既可以完成VS（Vertex Shader，頂點著色器）運算，也可以完成PS（Pixel Shader，像素著色器）運算，而且可以根據(jù)需要組成任意VS/PS比例，從而給開發(fā)者更廣闊的發(fā)揮空間。

流處理器單元首次出現(xiàn)于DirectX 10時代的G80核心的Nvidia GeForce 8800GTX顯卡，是顯卡發(fā)展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念，但是流處理器在橫向和縱向都不可類比，大量的流處理器是GPU性能強(qiáng)勁的必要非充分條件。

紋理映射單元（TMU）作為GPU的部件，它能夠?qū)ΧM(jìn)制圖像旋轉(zhuǎn)、縮放、扭曲，然后將其作為紋理放置到給定3D模型的任意平面，這個過程稱為紋理映射。紋理映射單元不可簡單跨平臺橫向比較，大量的紋理映射單元是GPU性能強(qiáng)勁的必要非充分條件。

光柵化處理單元（ROPs）主要負(fù)責(zé)游戲中的光線和反射運算，兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害，對ROPs的性能要求就越高，否則可能導(dǎo)致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進(jìn)行捆綁的，二者同比例增減。在AMD GPU中，ROPs單元和流處理器單元沒有直接捆綁關(guān)系。

英偉達(dá)安培內(nèi)核SP、ROPs、TMU拆解

英偉達(dá)RTX 3080 GPU-Z參數(shù)

消費GPU的實時光線追蹤在2018年由英偉達(dá)的“圖靈”GPU首次引入，光追單元（RT Cores）在此過程中發(fā)揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速，實時陰影、環(huán)境光、照明和反射，光追單元和光柵單元可以協(xié)同工作，進(jìn)一步提高幀數(shù)和陰影的真實感。

光追單元在英偉達(dá)的RTX光線追蹤技術(shù)、微軟DXR API、英偉達(dá)Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。擁有68個光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強(qiáng)10倍。

張量單元（Tensor Core）在2017年由英偉達(dá)的“伏特”GPU中被首次引入。張量單元主要用于實時深度學(xué)習(xí)，服務(wù)于人工智能，大型矩陣運算和深度學(xué)習(xí)超級采樣（DLSS），可以帶來驚人的游戲和專業(yè)圖像顯示，同時提供基于云系統(tǒng)的快速人工智能。

英偉達(dá)RTX2080Ti張量單元算力

英偉達(dá)圖靈GPU光追單元運作流程

英偉達(dá)圖靈GPU張量單元提供多精度AI

GPU的API（Application Programming Interface）應(yīng)用程序接口發(fā)揮著連接應(yīng)用程序和顯卡驅(qū)動的橋梁作用。不過隨著系統(tǒng)優(yōu)化的深入，API也可以直接統(tǒng)籌管理高級語言、顯卡驅(qū)動和底層匯編語言。

3D API能夠讓編程人員所設(shè)計的3D軟件只需調(diào)動其API內(nèi)的程序，讓API自動和硬件的驅(qū)動程序溝通，啟動3D芯片內(nèi)強(qiáng)大的3D圖形處理功能，從而大幅地提高3D程序的設(shè)計效率。同樣的，GPU廠家也可以根據(jù)API標(biāo)準(zhǔn)來設(shè)計GPU芯片，以達(dá)到在API調(diào)用硬件資源時的最優(yōu)化，獲得更好的性能。3D API可以實現(xiàn)不同廠家的硬件、軟件最大范圍兼容。如果沒有API，那么開發(fā)人員必須對不同的硬件進(jìn)行一對一的編碼，這樣會帶來大量的軟件適配問題和編碼成本。

目前GPU API可以分為2大陣營和若干其他類。2大陣營分別是微軟的DirectX標(biāo)準(zhǔn)和KhronosGroup標(biāo)準(zhǔn)，其他類包括蘋果的Metal API、AMD的Mantle（地幔）API、英特爾的One API等。

微軟DirectX和Khronos Group API組合對比

DirectX是Direct eXtension的簡稱，作為一種API，是由微軟公司創(chuàng)建的多媒體編程接口。DirectX可以讓以Windows為平臺的游戲或多媒體程序獲得更高的執(zhí)行效率，加強(qiáng)3D圖形和聲音效果，并提供設(shè)計人員一個共同的硬件驅(qū)動標(biāo)準(zhǔn)，讓游戲開發(fā)者不必為每一品牌的硬件來寫不同的驅(qū)動程序，也降低用戶安裝及設(shè)置硬件的復(fù)雜度。DirectX已被廣泛使用于Windows操作系統(tǒng)和Xbox主機(jī)的電子游戲開發(fā)。

OpenGL是Open Graphics Library的簡稱，是用于渲染2D、3D矢量圖形的跨語言、跨平臺的應(yīng)用程序編程接口（API），相比DirectX更加開放。這個接口由近350個不同的函數(shù)調(diào)用組成，用來繪制從簡單的二維圖形到復(fù)雜的三維景象。OpenGL常用于CAD、虛擬現(xiàn)實、科學(xué)可視化程序和電子游戲開發(fā)。

正是由于OpenGL的開放，所以它可以被運行在Windows、MacOS、Linux、安卓、iOS等多個操作系統(tǒng)上，學(xué)習(xí)門檻也比DirectX更低。但是，效率低是OpenGL的主要缺點。

DirectX和OpenGL特點對比

Metal是Apple在2014年創(chuàng)建的接近底層的，低開銷的硬件加速3D圖形和計算著色器API。Metal在iOS 8中首次亮相。Metal在一個API中結(jié)合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS，iPadOS，macOS和tvOS上的應(yīng)用程序提供對GPU硬件的底層訪問來提高性能。相較于OpenGL ES，Metal減少了10倍的代碼擁擠，提供了更好的解決方案，并將會在蘋果設(shè)備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調(diào)用的面向?qū)ο蟮腁PI。GPU的全部操作是通過Metal著色語言控制的。

2017年，蘋果推出了Metal的升級版Metal2，兼容前代Metal硬件，支持iOS11，MacOS和tvOS11。Metal2可以在Xcode中更有效地進(jìn)行配置和調(diào)試，加快機(jī)器學(xué)習(xí)速度，降低CPU工作量，在MacOS上支持VR，充分發(fā)揮A11 GPU的特性。

Vulkan是一種低開銷，跨平臺的3D圖像和計算API。Vulkan面向跨所有平臺的高性能實時3D圖形應(yīng)用程序，如視頻游戲和交互式媒體。與OpenGL，Direct3D 11和Metal相比，Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外，Vulkan還旨在使開發(fā)人員更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API組件，最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發(fā)布于2020年1月15日，該版本整合了23個額外經(jīng)常被使用的Vulkan拓展。

Metal與OpenGL性能對比

OpenGL和Vulkan對比

軟件生態(tài)方面，GPU無法單獨工作，必須由CPU進(jìn)行控制調(diào)用才能工作，而CPU在處理大量類型一致的數(shù)據(jù)時，則可調(diào)用GPU進(jìn)行并行計算。所以，GPU的生態(tài)和CPU的生態(tài)是高度相關(guān)的。

近年來，在摩爾定律演進(jìn)的放緩和GPU在通用計算領(lǐng)域的高速發(fā)展的此消彼長之下，通用圖形處理器（GPGPU）逐漸“反客為主”，利用GPU來計算原本由CPU處理的通用計算任務(wù)。

目前，各個GPU廠商的GPGPU的實現(xiàn)方法不盡相同，如NVIDIA使用的CUDA（compute unified device architecture）技術(shù)、原ATI的ATI Stream技術(shù)、Open CL聯(lián)盟、微軟的DirectCompute技術(shù)。這些技術(shù)可以讓GPU在媒體編碼加速、視頻補(bǔ)幀與畫面優(yōu)化、人工智能與深度學(xué)習(xí)、科研領(lǐng)域、超級計算機(jī)等方面發(fā)揮異構(gòu)加速的優(yōu)勢。以上4種技術(shù)中，只有OpenCL支持跨平臺和開放標(biāo)注的特性，還可以使用專門的可編程電路來加速計算，業(yè)界支持非常廣泛。

DirectX和OpenGL生態(tài)對比

OpenCL聯(lián)盟生態(tài)

GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上，擁有獨立顯存，而集成GPU常和CPU共用一個Die，共享系統(tǒng)內(nèi)存。GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上，擁有獨立顯存，而集成GPU常和CPU共用一個Die，共享系統(tǒng)內(nèi)存。

GPU的主要分類

獨立GPU

集成GPU Die

GPU顯存是用來存儲顯卡芯片處理過或者即將提取的渲染數(shù)據(jù)，是GPU正常運作不可或缺的核心部件之一。GPU的顯存可以分為獨立顯存和集成顯存兩種。目前，獨立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6，而集成顯存主要采用DDR3、DDR4。服務(wù)器GPU偏好使用Chiplet形式的HBM顯存，最大化吞吐量。

集成顯存受制于64位操作系統(tǒng)的限制，即便組成2通道甚至4通道，與獨立顯存的帶寬仍有相當(dāng)差距。通常這也造成了獨立GPU的性能強(qiáng)于集成GPU。

顯存的主要分類

獨立顯存的工作方式

集成顯卡是指一般不帶顯存，而是使用系統(tǒng)的一部分主內(nèi)存作為顯存的顯卡。集成顯卡可以被整合進(jìn)主板作為北橋芯片的一部分，也可以和CPU集成在同一個Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應(yīng)用軟件的需求自動調(diào)整。如果顯卡運行需要占用大量內(nèi)存空間，那么整個系統(tǒng)運行會受限，此外系統(tǒng)內(nèi)存的頻率通常比獨立顯卡的顯存低很多，因此集成顯卡的性能比獨立顯卡要遜色一些。

獨立顯卡是將顯示芯片及相關(guān)器件制作成一個獨立于電腦主板的板卡，成為專業(yè)的圖像處理硬件設(shè)備。獨立顯卡因為具備高位寬、高頻獨立顯存和更多的處理單元，性能遠(yuǎn)比集成顯卡優(yōu)越，不僅可用于一般性的工作，還具有完善的2D效果和很強(qiáng)的3D水平，因此常應(yīng)用于高性能臺式機(jī)和筆記本電腦，主要的接口為PCIe。

如今，獨立顯卡與集成顯卡已經(jīng)不是2個完全割裂，各自為營的圖像處理單元了。二者在微軟DX12的支持下也可以實現(xiàn)獨核顯交火，同時AMD和NVIDIA的顯卡也可實現(xiàn)混合交火。

集成顯卡和獨立顯卡對比

GPU對比CPU：從芯片設(shè)計思路看，CPU是以低延遲為導(dǎo)向的計算單元，通常由專為串行處理而優(yōu)化的幾個核心組成，而GPU是以吞吐量為導(dǎo)向的計算單元，由數(shù)以千計的更小、更高效的核心組成，專為并行多任務(wù)設(shè)計。

CPU和GPU設(shè)計思路的不同導(dǎo)致微架構(gòu)的不同。CPU的緩存大于GPU，但在線程數(shù)，寄存器數(shù)和SIMD（單指令多數(shù)據(jù)流）方面GPU遠(yuǎn)強(qiáng)于CPU。

微架構(gòu)的不同最終導(dǎo)致CPU中大部分的晶體管用于構(gòu)建控制電路和緩存，只有少部分的晶體管完成實際的運算工作，功能模塊很多，擅長分支預(yù)測等復(fù)雜操作。GPU的流處理器和顯存控制器占據(jù)了絕大部分晶體管，而控制器相對簡單，擅長對大量數(shù)據(jù)進(jìn)行簡單操作，擁有遠(yuǎn)勝于CPU的強(qiáng)大浮點計算能力。

GPU和CPU的核心設(shè)計思路對比

GPU和CPU的核心對比

后摩爾時代，隨著GPU的可編程性不斷增強(qiáng)，GPU的應(yīng)用能力已經(jīng)遠(yuǎn)遠(yuǎn)超出了圖形渲染，部份GPU被用于圖形渲染以外領(lǐng)域的計算成為GPGPU。與此同時，CPU為了追求通用性，只有少部分晶體管被用于完成運算，而大部分晶體管被用于構(gòu)建控制電路和高速緩存。但是由于GPU對CPU的依附性以及GPU相較CPU更高的開發(fā)難度，所以GPU不可能完全取代CPU。我們認(rèn)為未來計算架構(gòu)將是GPU+CPU的異構(gòu)運算體系。

在GPU+CPU的異構(gòu)運算中，GPU和CPU之間可以無縫地共享數(shù)據(jù)，而無需內(nèi)存拷貝和緩存刷新，因為任務(wù)以極低的開銷被調(diào)度到合適的處理器上。CPU憑借多個專為串行處理而優(yōu)化的核心運行程序的串行部份，而GPU使用數(shù)以千計的小核心運行程序的并行部分，充分發(fā)揮協(xié)同效應(yīng)和比較優(yōu)勢。

異構(gòu)運算除了需要相關(guān)的CPU和GPU等硬件支持，還需要能將它們有效組織的軟件編程。OpenCL是（OpenComputing Language）的簡稱，它是第一個為異構(gòu)系統(tǒng)的通用并行編程而產(chǎn)生的統(tǒng)一的、免費的標(biāo)準(zhǔn)。OpenCL支持由多核的CPU、GPU、Cell架構(gòu)以及信號處理器(DSP)等其他并行設(shè)備組成的異構(gòu)系統(tǒng)。

OpenCL異構(gòu)運算構(gòu)成

異構(gòu)運算下的GPU工作流程

GPU與ASIC和FPGA的對比：數(shù)據(jù)、算力和算法是AI三大要素，CPU配合加速芯片的模式成為典型的AI部署方案，CPU提供算力，加速芯片提升算力并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。

GPU用于大量重復(fù)計算，由數(shù)以千計的更小、更高效的核心組成大規(guī)模并行計算架構(gòu)，配備GPU的服務(wù)器可取代數(shù)百臺通用CPU服務(wù)器來處理HPC和AI業(yè)務(wù)。

FPGA是一種半定制芯片，靈活性強(qiáng)集成度高，但運算量小，量產(chǎn)成本高，適用于算法更新頻繁或市場規(guī)模小的專用領(lǐng)域。

ASIC專用性強(qiáng)，市場需求量大的專用領(lǐng)域，但開發(fā)周期較長且難度極高。

在AI訓(xùn)練階段需要大量數(shù)據(jù)運算，GPU預(yù)計占64%左右市場份額，F(xiàn)PGA和ASIC分別為22%和14%。推理階段無需大量數(shù)據(jù)運算，GPU將占據(jù)42%左右市場，F(xiàn)PGA和ASIC分別為34%和24%。

不同應(yīng)用場景AI芯片性能需求和具體指標(biāo)

GPU、FPGA、ASIC AI芯片對比

在PC誕生之初，并不存在GPU的概念，所有的圖形和多媒體運算都由CPU負(fù)責(zé)。但是由于X86 CPU的暫存器數(shù)量有限，適合串行計算而不適合并行計算，雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補(bǔ)CPU的缺陷，但是僅僅在指令集方面的改進(jìn)不能起到根本效果，所以誕生了圖形加速器作為CPU的輔助運算單元。

GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史，在此過程中曾經(jīng)的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨立顯卡領(lǐng)域主要由英偉達(dá)和AMD控制，而集成顯卡領(lǐng)域由英特爾和AMD控制。

GPU的發(fā)展史

英偉達(dá)的GPU架構(gòu)自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏，帶來更多更新的運算單元和更好的API適配性。在每次的大換代之間，不乏有一次的小升級，如采用開普勒二代微架構(gòu)的GK110核心相較于采用初代開普勒微架構(gòu)的GK104核心，升級了顯卡智能動態(tài)超頻技術(shù)，CUDA運算能力提升至3.5代，極致流式多處理器（SMX）的浮點運算單元提升8倍，加入了Hyper-Q技術(shù)提高GPU的利用率并削減了閑置，更新了網(wǎng)格管理單元（Grid Management Unit），為動態(tài)并行技術(shù)提供了靈活性。

英偉達(dá)GPU微架構(gòu)的持續(xù)更新，使英偉達(dá)GPU的能效提升了數(shù)十倍，占領(lǐng)了獨立顯卡技術(shù)的制高點。

2008-2020英偉達(dá)GPU微架構(gòu)進(jìn)化

圖形API在GPU的運算過程中發(fā)揮著連接高級語言、顯卡驅(qū)動乃至底層匯編語言的作用，充當(dāng)GPU運行和開發(fā)的“橋梁”和“翻譯官”。微軟DirectX標(biāo)準(zhǔn)可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡(luò)部分，其中與GPU具有最直接關(guān)系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標(biāo)準(zhǔn)，前者主要負(fù)責(zé)2D圖像加速，后者主要負(fù)責(zé)3D效果顯示。

從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中，DirectX不斷完善對各類GPU的兼容，增加開發(fā)人員的權(quán)限，提高GPU的顯示質(zhì)量和運行幀數(shù)。

DirectX一般和Windows操作系統(tǒng)同步更新，如Windows 7推出了DX11、Windows 10推出了DX12。

1998-2014微軟DirectX進(jìn)化

GPU和CPU都是以先進(jìn)制程為導(dǎo)向的數(shù)字芯片。先進(jìn)制程可以在控制發(fā)熱和電能消耗的同時，在有限的Die中放入盡可能多的晶體管，提高GPU的性能和能效。

NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級到了RTX3000系列的7/8納米制程，在整個過程中，晶體管數(shù)量提升了20多倍，逐步確立了在獨立GPU的市場龍頭地位。

同時在整個過程中，NVIDIA一直堅持不采用IDM的模式，而是讓臺積電負(fù)責(zé)GPU的制造，自生專注于芯片設(shè)計，充分發(fā)揮比較優(yōu)勢。

2008-2020英偉達(dá)GPU主要制程和晶體管數(shù)進(jìn)化

根據(jù)前12年的GPU發(fā)展軌跡來看，GPU微架構(gòu)的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更多”是指晶體管數(shù)量和運算單元的增加，其中包括流處理器單元、紋理單元、光柵單元等數(shù)量上升。“更專”是指除了常規(guī)的計算單元，GPU還會增加新的運算單元。例如，英偉達(dá)的圖靈架構(gòu)相較于帕斯卡架構(gòu)新增加了光追單元和張量單元，分別處理實時光線追蹤和人工智能運算。“更智能”是指GPU的AI運算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。

英偉達(dá)GTX1080對比RTX2080

英偉達(dá)伏特微架構(gòu)對比安培微架構(gòu)AI加速性能

英偉達(dá)安培架構(gòu)提升

綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級，我們認(rèn)為GPU API的升級趨勢是提高GPU的運行效率、增加高級語言和顯卡驅(qū)動之間的連接、優(yōu)化視覺特效等。其中，提供更底層的支持：統(tǒng)籌高級語言、顯卡驅(qū)動和底層語言是幾乎所有API升級的主要方向。

不過提供更底層的支持只是更高的幀數(shù)或更好的畫質(zhì)的必要非充分條件。在整個軟件的開發(fā)過程中，軟件開發(fā)商需要比驅(qū)動程序和系統(tǒng)層更好地調(diào)度硬件資源，才能充分發(fā)揮底層API的效果。

在顯示質(zhì)量方面，DirectX 12 Ultimate采用當(dāng)下最新的圖形硬件技術(shù)，支持光線追蹤、網(wǎng)格著色器和可變速率著色，PC和Xbox共用同一個API，堪稱次世代游戲的全新黃金標(biāo)準(zhǔn)。

非底層DirectX 11對比底層DirectX 12

DirectX 12 Ultimate新特性

GPU制造升級趨勢：以先進(jìn)制程為導(dǎo)向。GPU性能的三大決定因素為主頻、微架構(gòu)、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長度等特征尺寸，不過出于營銷的需要，現(xiàn)在的制程已經(jīng)偏離了本意，因此單純比較納米數(shù)沒有意義。按英特爾的觀點，每平方毫米內(nèi)的晶體管數(shù)（百萬）更能衡量制程。據(jù)此，臺積電和三星的7nm工藝更接近英特爾的10nm工藝。

先進(jìn)的制程可以降低每一個晶體管的成本，提升晶體管密度，在GPU Die體積不變下實現(xiàn)更高的性能；先進(jìn)制程可以提升處理器的效能，在性能不變的情況下，減少發(fā)熱或在發(fā)熱不變的情況下，通過提升主頻來拉高性能。

先進(jìn)制程的主要目的是降低平面結(jié)構(gòu)帶來的漏電率問題，提升方案可以通過改變工藝，如采用FinFET（鰭式場效應(yīng)晶體管）或GAA（環(huán)繞式柵極）；或采用特殊材料，如FD-SOI（基于SOI的超薄絕緣層上硅體技術(shù))。

先進(jìn)制程工藝之FinFET

英特爾10nm先進(jìn)制程帶來的性能和效能提升

GPU制造升級趨勢：Chiplet化。高位寬內(nèi)存（HBM）是小芯片（Chiplet）在GPU中的常見應(yīng)用。HBM是一種高速計算機(jī)存儲器3D堆棧SDRAM接口。首款HBM于2013年推出，第二代HBM2已于2016年被JEDEC接受。目前，HBM主要應(yīng)用在高端獨立顯卡和服務(wù)器顯卡。

HBM通過3D堆疊4個DRAM Die和1片邏輯Die組成一個Chiplet，其中每片DRAM具有2個128位通道，通過TSV（硅通孔）相連。所以，一片Chiplet總共8個128位通道，總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層（Interposer）連接GPU芯片。相比之下，GDDR5內(nèi)存的總線寬度為32位，帶有512位內(nèi)存接口的顯卡也只有16個通道，而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比，每GB的表面積減少94%，每GB/S帶寬的能效提升2倍多。

HBM支持最多每個Chiplet 4GB的存儲，HBM2在HBM的基礎(chǔ)上將每片Chiplet的最大容量提升至了8GB，顯存主頻提升1倍，同時總位寬保持不變。

HBM的GPU應(yīng)用

GDDR5對比HBM

HBM先進(jìn)封裝結(jié)構(gòu)

GPU制造可分為IDM和Fab+Fabless。IDM集芯片設(shè)計、芯片制造、芯片封裝和測試等多個產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。

Fabless只負(fù)責(zé)芯片的電路設(shè)計與銷售，將生產(chǎn)、測試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只負(fù)責(zé)制造，不負(fù)責(zé)芯片設(shè)計，可以同時為多家設(shè)計公司服務(wù)，但受制于公司間的競爭關(guān)系。臺積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后，根本原因是英特爾受困于IDM運作模式。隨著28納米以下先進(jìn)制程的發(fā)展，芯片的制造成本和設(shè)計成本成指數(shù)級上升。同時，一條12英寸晶圓的生產(chǎn)線從建設(shè)到生產(chǎn)的周期約2年，投資至少30-50億美元，資本支出占比80%，整體風(fēng)險非常大。英特爾以有限的資源不支持它持續(xù)的設(shè)計和生產(chǎn)的的兩線作戰(zhàn)。

Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢，分散了GPU設(shè)計和制造的風(fēng)險，符合半導(dǎo)體分工的大趨勢。

IDM與Fab+Fabless對比

芯片設(shè)計費用趨勢（億美元）

過去20多年里，GPU的基本需求源于視頻加速，2D/3D游戲。隨后GPU運用自身在并行處理和通用計算的優(yōu)勢，逐步開拓服務(wù)器、汽車、礦機(jī)、人工智能、邊緣計算等領(lǐng)域的衍生需求。雖然GPU無法離開CPU獨立運作，但是在當(dāng)前“云化”加速的時代，離開了GPU的CPU也無法勝任龐大的計算需求。所以GPU和CPU組成了異構(gòu)運算體系，從底層經(jīng)由系統(tǒng)軟件和驅(qū)動層支持著上層的各種應(yīng)用。GPU已經(jīng)成為了專用計算時代的剛需。

現(xiàn)代云計算中GPU加速的剛需

二、GPU的全球格局

2020年全球GPU市場價值預(yù)計為254.1億美元，預(yù)計2027年將達(dá)到1853.1億美元，年平均增速為32.82%。按GPU的類型進(jìn)行劃分，市場可以細(xì)分為獨立、集成和混合。2019年，集成GPU占GPU市場的主導(dǎo)地位，但是由于混合GPU同時擁有集成和專用GPU的能力，所以混合細(xì)分市場預(yù)計實現(xiàn)最高復(fù)合增長率。

按GPU的設(shè)備進(jìn)行劃分，市場可細(xì)分為計算機(jī)、平板電腦、智能手機(jī)、游戲機(jī)、電視、其他。就收入而言，智能手機(jī)細(xì)分市場占比最大，在未來也將保持這一趨勢。但是，由于醫(yī)療等其他設(shè)備中對小型GPU的需求不斷增加，預(yù)計未來的年復(fù)合增長率將最高。

按GPU的行業(yè)進(jìn)行劃分，市場可細(xì)分為電子、IT與電信、國防與情報、媒體與娛樂、汽車、其他。由于GPU在設(shè)計和工程應(yīng)用中的廣泛使用，預(yù)計汽車細(xì)分行業(yè)的年復(fù)合增長率最高。

按GPU的地理區(qū)域劃分，市場可細(xì)分為北美、歐洲、亞太和其他地區(qū)。亞太地區(qū)在2019年主導(dǎo)了全球GPU市場，預(yù)計在整個預(yù)測期內(nèi)將保持主導(dǎo)地位。

全球GPU市場規(guī)模預(yù)測

2015-2025全球前三GPU供應(yīng)商營收總和

全球GPU已經(jīng)進(jìn)入了寡頭壟斷的格局。在傳統(tǒng)GPU市場中，排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業(yè)收入。英偉達(dá)的收入占56%、AMD占26%、英特爾占18%。

在手機(jī)和平板GPU方面，聯(lián)發(fā)科、海思麒麟、三星Exynos的GPU設(shè)計主要基于公版ARM MaliGPU或PowerVR微架構(gòu)。高通驍龍Adreno和蘋果A系列采用自研GPU微架構(gòu)。2019Q2，ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機(jī)和平板的前五大GPU供應(yīng)商。同期ARM Mali在以上五大GPU供應(yīng)商中占43%的市場份額，高通Adreno占36%的份額，蘋果占12%的份額。

2019前三家GPU供應(yīng)商收入份額對比

2019 Q2手機(jī)和平板GPU供應(yīng)商份額

1、英偉達(dá)

英偉達(dá)公司成立于1993年，于1999年率先推出“GPU”的圖形解決方案。公司主要設(shè)計游戲和專業(yè)市場的GPU，移動計算和自動駕駛汽車的SoC，是GPU計算領(lǐng)域公認(rèn)的全球領(lǐng)導(dǎo)者。它主要的GPU產(chǎn)線“GeForce”和AMD的“Radeon”形成直接競爭。同時，英偉達(dá)為了拓展移動游戲平臺，推出了掌機(jī)Shield、Shield平板、Shield電視盒子和云游戲服務(wù)GeForce Now。目前，公司已經(jīng)完成了由芯片供應(yīng)商向計算平臺的轉(zhuǎn)型。

英偉達(dá)的四大增長驅(qū)動力分別是游戲業(yè)務(wù)、數(shù)據(jù)中心業(yè)務(wù)、專業(yè)視覺業(yè)務(wù)、自動駕駛業(yè)務(wù)，各業(yè)務(wù)的代表性GPU方案分別是GeForce，DGX、EGX、HGX，Quadro、AGX。

英偉達(dá)2021財年營收167億美元，其中游戲、數(shù)據(jù)中心、專業(yè)視覺、自動駕駛業(yè)務(wù)在2020財年分別貢獻(xiàn)了營收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后，于2021財年毛利率突破60%。

英偉達(dá)2021財年的業(yè)務(wù)構(gòu)成

英偉達(dá)的主要增長驅(qū)動力

英偉達(dá)的游戲業(yè)務(wù)由GeForce和Shield組成。其中Shield面向移動端和云，GeForce面向PC。游戲筆記本和云游戲是公司拓展市場的2大方向。GeForce是英偉達(dá)游戲業(yè)務(wù)的核心。GeForce是全球最大的游戲平臺，擁有超過2億名玩家。在PC游戲領(lǐng)域，英偉達(dá)的營收是其他主要GPU供應(yīng)商的三倍多。GeForce已經(jīng)來到了RTX30系列，采用第二代NVIDIA RTX架構(gòu)-NVIDIA安培架構(gòu)，搭載全新的RT Core、Tensor Core及流式多處理器，擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進(jìn)技術(shù)，可帶來逼真的光線追蹤效果和先進(jìn)的AI性能。

除了PC游戲市場，英偉達(dá)也向合作伙伴–任天堂Switch主機(jī)提供定制版Tegra SoC。作為合作的一部分，Shield主機(jī)可以暢享任天堂的游戲，GameStream串流游戲和熱門游戲，實現(xiàn)4KHDR畫質(zhì)，支持百度DuerOS對話式人工智能。

英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)的技術(shù)根源是CUDA（統(tǒng)一計算設(shè)備架構(gòu)）。CUDA首次推出于2006年的G80核心，隸屬于通用并行計算架構(gòu)，創(chuàng)造了GPGPU。在“安培”時代，CUDA核心已經(jīng)進(jìn)化到了8.0，被運用在幾乎所有的英偉達(dá)產(chǎn)品線。

CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形API相比，CUDA可以使開發(fā)者更容易使用GPU資源。當(dāng)前，CUDA在廣義上既代表GPU的硬件平臺又代表GPU的軟件平臺。

在硬件平臺方面，CUDA包含了CUDA指令集以及GPU內(nèi)部的并行計算引擎。GPU平臺的矢量運算如INT、FP32、FP64都由CUDA承擔(dān)。開發(fā)人員可以使用C語言和Fortran語言為CUDA編寫程序。

在軟件平臺方面，基于CUDA的CUDA-X加速庫、工具和科技集合，向上對接不同的行業(yè)應(yīng)用需求。在英偉達(dá)的軟件棧體系中，分為CUDA-X AI和CUDA-X HPC，分別面向AI和HPC兩大領(lǐng)域，可以在人工智能和高性能計算方面提供遠(yuǎn)超其他競品的性能。CUDA-X的開發(fā)者已經(jīng)超過100萬。

英偉達(dá)CUDA-X HPC

英偉達(dá)CUDA-X AI

英偉達(dá)數(shù)據(jù)中心的產(chǎn)品包括適用于AI的DGX系統(tǒng)，適用于邊緣計算的EGX平臺，適用于超算的HGX平臺、適用于數(shù)據(jù)處理的DPU、簡化深度學(xué)習(xí)，機(jī)器學(xué)習(xí)，高性能計算的NGC目錄。相關(guān)的GPU加速器有采用安培架構(gòu)的A100、A40，采用圖靈架構(gòu)的T4、RTX6000、RTX8000，采用伏特架構(gòu)的V100。

過去5個財年中，英偉達(dá)數(shù)據(jù)中心的營收從8.3億美元上升至66.96億美元，年復(fù)合增速69%。同時，公司的注冊開發(fā)者超過200萬，與主要的云供應(yīng)商如谷歌、騰訊、阿里建立了供應(yīng)關(guān)系，世界500強(qiáng)超算中的份額從6%上升至70%。

英偉達(dá)主要云合作伙伴

英偉達(dá)數(shù)據(jù)中心營收趨勢

英偉達(dá)在超算500強(qiáng)中份額

英偉達(dá)專業(yè)視覺業(yè)務(wù)主要由Quadro產(chǎn)品線組成。Quadro在GeForce的基礎(chǔ)上加強(qiáng)了NVLink、GPU的通用計算性能和顯存容量，擁有Iray、Omniverse平臺、材質(zhì)定義語言等特有技術(shù)。Quadro被廣泛應(yīng)用在臺式工作站、筆記本電腦、EGX服務(wù)器、虛擬工作空間、云端、定制化方案中。英偉達(dá)Quadro方案有超過50種應(yīng)用、4000萬設(shè)計用戶和2000萬企業(yè)用戶，并正在不斷解鎖新市場。

在過去的5個財年，英偉達(dá)專業(yè)視覺的營收從8.35億美元上升至10.53億美元，年復(fù)合增速6%。

英偉達(dá)專業(yè)視覺GPU加速合作伙伴

英偉達(dá)專業(yè)視覺營收趨勢

英偉達(dá)專業(yè)視覺方案

英偉達(dá)的汽車產(chǎn)品包括相關(guān)駕駛軟件、駕駛基礎(chǔ)設(shè)計、AGX平臺，提供訓(xùn)練、模擬、智能駕駛艙體驗、高清地圖和定位等解決方案。在絕對性能方面，搭載4顆Drive AGX Origin的蔚來ADAM超算平臺支持L4以上自動駕駛，超過7個特斯拉FSD算力總和。

不同于特斯拉自動駕駛追求軟硬件的高度契合，英偉達(dá)的方案更追求開放性。公司在汽車領(lǐng)域的合作伙伴以軟件服務(wù)和轎車居多，分別達(dá)到了76家和42家。同時，公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強(qiáng)力的生態(tài)。

在過去的5個財年，英偉達(dá)自動駕駛的營收從4.87億美元上升至5.36億美元，年復(fù)合增速3%。

英偉達(dá)自動駕駛營收趨勢

英偉達(dá)自動駕駛合作伙伴分布數(shù)

2020年9月13日，NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xì)分為以下5個方面：

1. 創(chuàng)造AI時代的世界級計算公司，將英偉達(dá)領(lǐng)先的AI計算平臺和ARM龐大的CPU生態(tài)相結(jié)合；

2. 通過英偉達(dá)在移動端和PC等大型終端市場的科技拓展ARM的IP授權(quán)組合；

3. 加速ARM的服務(wù)器CPU、數(shù)據(jù)中心、邊緣AI、IoT發(fā)展；

4. 將英偉達(dá)計算平臺的開發(fā)者由200萬提升至超過1500萬；

5. 并購可以立即增加英偉達(dá)的非GAAP毛利率和非GAAP每股收益；

合并后的英偉達(dá)將把計算從云、智能手機(jī)、PC、自動駕駛車和機(jī)器人技術(shù)推進(jìn)到了邊緣物聯(lián)網(wǎng)，將AI計算拓展到全球，在拓展大規(guī)模、高增長市場的同時加速創(chuàng)新。

英偉達(dá)從云到邊緣

2、全球GPU先驅(qū)：AMD

AMD是全球唯一可以同時提供高性能GPU和CPU的企業(yè)。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中，AMD繼續(xù)使用ATI作為顯卡品牌。直到2010年，AMD才拋棄原ATI的品牌命名方式。

目前，AMD同時提供獨立GPU和集成GPU，其集成GPU主要運用在Ryzen APU、嵌入式、半定制平臺中，獨立GPU分為Radeon和Instinct系列，主要用于游戲、專業(yè)視覺、服務(wù)器等應(yīng)用。

過去六年，AMD的計算和圖形收入的營收由18.05億美元上升至64.32億美元，年復(fù)合增速29%。

未來五年，AMD計劃成為高性能計算的領(lǐng)導(dǎo)者，提供顛覆性的CPU和GPU方案。

AMD計算和圖形部門營收

AMD GPU的聚焦領(lǐng)域

AMD的集成GPU主要被運用在臺式機(jī)和筆記本的APU產(chǎn)品中，和CPU組成異構(gòu)運算單元。臺式和筆記本APU的GPU部份共用微架構(gòu)和核心技術(shù)，二者GPU的主要差異在于TDP和處理單元的數(shù)量，臺式強(qiáng)于筆記本。

“Renior”APU的GPU繼續(xù)使用Vega微架構(gòu)，但受益于7納米制程，每個處理單元效能顯著提升。

7納米Vega的提升包括：數(shù)據(jù)網(wǎng)絡(luò)翻倍、優(yōu)化低功耗狀態(tài)轉(zhuǎn)換、25%主頻提升、77%存儲位寬提升。這些提升帶來了在保持15W功耗不變的前提下，每個計算單元59%的性能提升、1.79TFLOPS的32位浮點峰值吞吐。

在3DMark Time Spy（DX12）的跑分中，7納米的Ryzen 4800U的GPU表現(xiàn)超過10納米i7-1065G7，是14納米i7-10710U的2倍以上。

AMD “RENIOR”APU

AMD “RENIOR”APU內(nèi)核解析

AMD “RENIOR”APU跑分對比

AMD的Radeon系列游戲獨立GPU按微架構(gòu)推出時間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中，除RX500系列外均采用臺積電7納米制程。

2020年11月推出的RDNA2微架構(gòu)相較于前代RDNA絕對性能最高提升一倍，能效提高54%，支持DirectX12 Ultimate，硬件光線追蹤和可變速率著色器等先進(jìn)技術(shù)。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達(dá)的RTX 3090。

為了發(fā)揮AMD CPU和GPU的協(xié)同效應(yīng)，Radeon擁有AMD SmartAccess Memory技術(shù)，銳龍CPU和顯卡之間能實現(xiàn)更出色的通信。RX6800系列顯卡在部分游戲中4K畫質(zhì)性能額外提升最高可達(dá)7%。

2022年前，AMD將基于更先進(jìn)的制程打造RDNA3微架構(gòu)，進(jìn)一步強(qiáng)化光追等計算表現(xiàn)。

除了傳統(tǒng)的BGA顯存封裝，AMD還積極運用HBM系列顯存。在Radeon7中，16GB的HBM2顯存擁有1TB/S的帶寬，超過同期Titan RTX 50%。

AMD獨立游戲GPU路線圖

AMD獨立游戲GPU產(chǎn)品線

AMD的數(shù)據(jù)中心GPU業(yè)務(wù)由Radeon Instinct加速器系列、以客戶為核心的數(shù)據(jù)中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM，同時AMD也向微軟AZURE和亞馬遜網(wǎng)絡(luò)服務(wù)提供視覺云解決方案。

ROCm是全球首個針對加速式計算且不限定編程語言的超大規(guī)模開源平臺，遵循UNIX的選擇哲學(xué)、極簡主義以及針對GPU計算的模塊化軟件開發(fā)。

ROCm適合大規(guī)模計算，支持多路GPU，有豐富的系統(tǒng)運行庫，包括框架、庫、編程模型、互聯(lián)和Linux Kernel上游支持，提供各種重要功能來支持大規(guī)模應(yīng)用、編譯器和語言運行庫的開發(fā)。

AMD正與美國能源部、橡樹嶺國家實驗室和Cray公司合作，使用EPYC（霄龍）CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺。

AMD ROCm開源軟件生態(tài)

AMD數(shù)據(jù)中心GPU產(chǎn)品線

Radeon Instinct MI 100加速器采用專注計算的CDNA微架構(gòu)，在計算和連接方面實現(xiàn)了巨大飛躍，與AMD上一代加速器相比，高性能計算工作負(fù)載（FP32矩陣）性能提升近3.5倍，而人工智能工作負(fù)載（FP16）性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達(dá)安培A100，同時功耗比后者低100瓦。

為了滿足多路GPU的互聯(lián)通訊需求，AMD研發(fā)了InfinityFabric技術(shù)。Infinity Fabric擁有先進(jìn)的平臺連接性和可拓展性，最多支持4路GPU互聯(lián)。P2P帶寬是PCIe 4.0的2倍，四GPU集群的P2P帶寬最高可達(dá)552GB/s。

未來，AMD將基于更先進(jìn)的制程打造CDNA2微架構(gòu)，進(jìn)入百億億級時代。

Instinct MI 100與安培A100對比

AMD數(shù)據(jù)中心GPU路線圖

AMD Infinity Fabric互聯(lián)

AMD的其他獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍運用在索尼、微軟的本世代和次世代主機(jī)中。如今，AMD的技術(shù)存在于2.2億個家庭暢享游戲和視頻娛樂時所用設(shè)備的核心。

嵌入式GPU的特點包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU，它們主要使用14納米的GCN 1.4北極星微架構(gòu)，TDP覆蓋20W-135W范圍。

Radeon Pro系列顯卡被廣泛應(yīng)用于建筑工程、設(shè)計制造、媒體娛樂等領(lǐng)域，擁有AMD遠(yuǎn)程工作站、AMD Eyefinity多屏顯示技術(shù)、AMD Radeon ProRender等技術(shù)。Radeon Pro系列采用Vega微架構(gòu)，7或14納米制程，直接競爭對手是英偉達(dá)的Quadro系列。Radeon Pro移動和臺式工作站的合作伙伴包括蘋果、戴爾、惠普等。

Radeon? Pro VII GPU規(guī)格

3、英特爾：全球GPU追趕者

英特爾是全球最大的PC GPU供應(yīng)商，也是PC和服務(wù)器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740，但是由于羸弱的性能和緩慢的更新速度，一直沒有非常大的起色。進(jìn)入Core i時代后，英特爾通過將核芯顯卡和CPU進(jìn)行捆綁銷售，利用CPU的龐大市場份額，確立了公司在集成GPU領(lǐng)域的寡頭壟斷地位，在此過程中AMD的APU一直是酷睿的直接競爭對手。

2020年，英特爾推出了第12代GPGPU，采用全新的Xe微架構(gòu)和10納米Super Fin制程。相較于第11代核顯，Xe-LP在保持電壓不變的前提下，大幅提升主頻，能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經(jīng)超過同期AMD的Vega核顯和英偉達(dá)的MX系列獨顯。

Xe系列可以細(xì)分為，集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數(shù)據(jù)中心/高性能的Xe-HP、高性能計算的Xe-HPC。

目前，Xe-LP的集成版本已經(jīng)被第11代酷睿所采用。Xe-LP的移動獨立GPU版本DG1和服務(wù)器獨立GPU版本SG1也已發(fā)布。獨顯版在核顯版的基礎(chǔ)上進(jìn)一步提升主頻，并加入了128位4GB LPDDR4X-4266獨立顯存，單精度浮點算力提升15%。

英特爾Xe縱向?qū)Ρ鹊?1代核顯

英特爾Xe產(chǎn)品線

英特爾的集成GPU在形式上表現(xiàn)為核芯顯卡。核芯顯卡使用系統(tǒng)DRAM作為非獨立顯存，通過處理器內(nèi)部的環(huán)狀總線與CPU連接，負(fù)責(zé)處理游戲、視頻娛樂等圖像負(fù)載。

英特爾Xe核顯借助10納米SuperFin的優(yōu)勢，將處理單元最高提升至96個，相較于Icelake的64個提升了50%，并且將連接CPU和GPU的總線帶寬提升一倍，獨立最終緩存（LLC）提高50%，支持最高86GB/s的存儲帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍，超過AMD的R74800U和同期英偉達(dá)的MX350。

Xe核顯的顯示引擎和媒體引擎也都得到加強(qiáng)。接口方面，內(nèi)部支持雙eDP，外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhì)方面，支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。

英特爾Xe核心顯卡和CPU經(jīng)由自家One API驅(qū)動中間層框架和上層應(yīng)用。英特爾One API解決了編碼模型在不同微架構(gòu)間的壁壘，最大化跨平臺表現(xiàn)和最小化開發(fā)成本。

英特爾Tiger Lake 實物圖和Die

英特爾Tiger Lake Xe核顯3DMark性能對比

英特爾獨立GPU分為銳炬Xe MAX和服務(wù)器GPU，均隸屬于Xe LP系列，微架構(gòu)與核顯Xe相同，采用標(biāo)準(zhǔn)封裝和10納米SuperFin制程。

目前，銳炬Xe MAX是第一款基于英特爾 Xe 架構(gòu)的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎(chǔ)上增加了4GBLPDDR4X-4266的獨立顯存，TDP 25W，峰值主頻1650MHz，單精度浮點性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時工作。借助英特爾Deep Link技術(shù)，獲得具有強(qiáng)大性能和經(jīng)過功耗優(yōu)化的集成系統(tǒng)，以改進(jìn)創(chuàng)造力和游戲體驗。

目前，英特爾服務(wù)器GPU在Xe核顯的基礎(chǔ)上，TDP提升到23W，增加了8GB LPDDR4的獨立顯存，支持高密度、低延遲的安卓云游戲和高密度媒體轉(zhuǎn)碼/編碼，以實現(xiàn)實時的OTT視頻直播。同時，英特爾服務(wù)器GPU支持2顆、4顆獨立GPU的聚合，成倍提高性能。

未來，英特爾還將推出面向游戲和高性能桌面的Xe HPG產(chǎn)品線，增加了光線追蹤等硬件支持，采用傳統(tǒng)封裝，外包生產(chǎn)。英特爾服務(wù)器GPU將使用Xe HPC、Xe HP微架構(gòu)，采用2.5D和3D先進(jìn)封裝，10納米SuperFin及更先進(jìn)自家或外包工藝。

英特爾Xe服務(wù)器GPU參數(shù)

英特爾Xe產(chǎn)品、封裝、制程

英特爾銳炬Xe MAX

4、ARM Mali：全球GPU IP巨頭

ARM是全球最大的半導(dǎo)體IP提供商。全世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)。2019Q2，全球近43%的手機(jī)和平板GPU由Mali驅(qū)動。2020第四季度，ARM半導(dǎo)體合作伙伴基于ARM技術(shù)的芯片出貨量達(dá)到67億顆，再創(chuàng)歷史新高，超過其他所有流行的CPU指令集架構(gòu)—X86、ARC、Power、MIPS的總和。

國產(chǎn)SoC中，有95%是基于ARM處理器技術(shù)，ARM中國授權(quán)客戶超過150家，基于ARM架構(gòu)的國產(chǎn)芯片出貨量已經(jīng)超過184億。

ARM的Mali GPU按性能可以分為3大類，分別是高性能、主流、高能效。

ARM IP組合和SoC設(shè)計

ARM Mali GPU路線圖

Arm Mali-G78 GPU是用于高端設(shè)備的第二代基于Valhall架構(gòu)的GPU。Mali-G78是性能最高的ArmGPU，可支持復(fù)雜的應(yīng)用，例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機(jī)器學(xué)習(xí)（ML）。

Mali-G78與上一代設(shè)備相比，GPU性能提高了25％，并增強(qiáng)了設(shè)備上的ML功能，從而有助于將高度復(fù)雜的游戲帶入移動設(shè)備。Mali-G78最多支持24個內(nèi)核，并包含異步頂級功能，可確保性能有效地分布在各個內(nèi)核上，從而使圖形運行更加流暢。全新執(zhí)行引擎中的新型融合乘加（FMA）單元可進(jìn)一步降低30%的單元能耗。

在GFXBench Aztec Ruin的跑分中，使用臺積電5納米工藝，搭載24個Mali-G78內(nèi)核的麒麟9000 SoCGPU的幀數(shù)強(qiáng)于驍龍865的Adreno 650，但仍落后于蘋果A14。

ARM Mali-G78

麒麟9000系列的ARM Mali-G78應(yīng)用

Imagination Technologies是一家總部在英國，專注于半導(dǎo)體和相關(guān)知識產(chǎn)權(quán)許可，銷售PowerVR移動圖形處理器，MIPS嵌入式微處理器和消費電子產(chǎn)品。公司還提供無線基帶處理，網(wǎng)絡(luò)，數(shù)字信號處理器，視頻和音頻硬件，IP語音軟件，云計算，以及芯片和系統(tǒng)設(shè)計服務(wù)。2017年，董事會宣布公司被中資的Canyon Bridge收購。

Imagination在GPU領(lǐng)域歷史悠久，在其超過25年的歷史中，Imagination先后推出過多代GPU產(chǎn)品，已積累超過1500項GPU專利，曾為蘋果供應(yīng)圖像處理器（GPU），在圖像處理器（GPU）領(lǐng)域與高通、ARM三分天下，曾占GPU市場大約占據(jù)三分之一的份額，在汽車領(lǐng)域更是達(dá)到43%。帶有Imagination IP的芯片產(chǎn)品累計出貨量已超過110億。

Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產(chǎn)品被廣泛應(yīng)用于移動設(shè)備（智能手機(jī)、平板）、汽車（儀表、信息娛樂、輔助駕駛）、沉浸式體驗（AR/VR）、消費電子（電視、機(jī)頂盒）。

根據(jù)Imagination的GPU路線圖，在A系列GPU性能最高提升2.5倍之后，B系列到D系列GPU的年復(fù)合增速在30%左右。2021年的C系列GPU將首次加入L4級別的光線追蹤，從硬件層面支持一致性分類的層次包圍體（BVH）和復(fù)雜光線處理，相比目前英偉達(dá)和AMD的L3級別光線追蹤方案可顯著提升能效，實現(xiàn)更好的用戶體驗。

IMG系列GPU路線圖

5、全球GPU IP巨頭：Imagination

2020年10月，Imagination推出了全新的IMG B系列GPU，這是公司第一個包含新多核架構(gòu)的GPU IP系列，也是首次采用RISC-V，可提供最高的性能密度。得益于多核架構(gòu)和Imagination圖像壓縮技（IMGIC），B系列相比A系列，功耗降低30%，帶寬降低35%、面積縮減25%，AI算力達(dá)到24 TOPS，且填充率比競品IP內(nèi)核高2.5倍。與A系列相似，B系列GPU也支持AI協(xié)同技術(shù)，在提供圖形處理功能的同時，可用備用資源來處理可編程AI等任務(wù)。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應(yīng)用，IMG BXM主打圖形處理體驗，IMG BXT面向高性能應(yīng)用，IMG BXS面向未來汽車。

BXS系列符合ISO 26262標(biāo)準(zhǔn)，也是迄今為止所開發(fā)的最先進(jìn)汽車GPU IP內(nèi)核。BXS提供了一個完整的產(chǎn)品系列，從入門到高端，可為下一代人機(jī)界面（HMI）、UI顯示、信息娛樂系統(tǒng)、數(shù)字駕艙、環(huán)繞視圖提供解決方案。高計算能力的配置可支持自動駕駛和ADAS。

憑借核心可擴(kuò)展的優(yōu)勢，IMG B系列適用于傳統(tǒng)移動設(shè)備、消費類設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視(DTV)和汽車等市場領(lǐng)域。IMG B系列也可擴(kuò)展至桌面GPU、云端GPU服務(wù)器，且支持自動駕駛和輔助駕駛等。

IMG B系列對比A系列能效提升

Imagination GPU組合

6、高通Adreno：全球移動GPU先驅(qū)

高通的自研GPU Adreno源于收購的AMD移動GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發(fā)布的Adreno 200是首款被集成到驍龍SoC中的GPU，并加入了3D硬件加速功能。

2020年12月，高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構(gòu)，采用了三星5納米LPE工藝，大幅提高主頻，使圖形渲染性能提高35%，能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ，二者將可變速率渲染和響應(yīng)速度分別提升30%和20%。

在GFXBench Aztec Ruin 1080P測試中，Adreno 660的峰值幀數(shù)追平麒麟9000，但相較蘋果A14仍有近20%的差距。

高通Adreno 660 1080P性能對比

高通Adreno 660 GPU

高通Adreno 660參數(shù)

7、蘋果：全球移動GPU新秀

蘋果的自研GPU首次出現(xiàn)于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU，其性能超過采用Power VR GT7600+的A10 GPU 30%。其后，所有的A系列SoC的GPU均為蘋果自研。

2020年，蘋果推出了5納米制程的M1芯片，該款SoC基于A14芯片，在CPU、GPU、NPU、緩存等各方面都進(jìn)行了強(qiáng)化，用于驅(qū)動蘋果的Mac產(chǎn)品。M1芯片的發(fā)布標(biāo)志著蘋果繼2005年放棄IBM的PowerPC指令集轉(zhuǎn)向Intel的X86指令集后的又一大PC領(lǐng)域轉(zhuǎn)換。

采用8核GPU的M1擁有128個執(zhí)行單元，可以同步運行近25000個線程，單精度浮點算力達(dá)到2.6 TFLOPs。M1 GPU的能效表現(xiàn)是當(dāng)時同類PC中集成GPU的三倍，峰值性能最高可達(dá)其他GPU的2倍。

蘋果M1 GPU參數(shù)

蘋果M1能效對比

蘋果M1 8核GPU

三、國產(chǎn)GPU自主之路

國產(chǎn)GPU的發(fā)展落后于國產(chǎn)CPU，直到2014年4月，景嘉微才成功研發(fā)出國內(nèi)首款國產(chǎn)高性能、低功耗GPU芯片—JM5400。在國產(chǎn)GPU的開發(fā)中，GPU對CPU的依賴性和GPU的高研發(fā)難度，阻礙了該產(chǎn)業(yè)的快速發(fā)展。

首先，GPU對CPU有依賴性。GPU結(jié)構(gòu)沒有控制器，必須由CPU進(jìn)行控制調(diào)用才能工作，否則GPU無法單獨工作。所以國產(chǎn)CPU較國產(chǎn)GPU先行一步是符合芯片產(chǎn)業(yè)發(fā)展邏輯的。

再者，GPU技術(shù)難度很高。Moor Insights & Strategy首席分析師莫海德曾表示：“相比CPU，開發(fā)GPU要更加困難，而GPU設(shè)計師、工程師和驅(qū)動程序的作者都要更少。”國內(nèi)人才缺口也是國產(chǎn)GPU發(fā)展緩慢的重要原因之一。在芯片行業(yè)，一般來說，培養(yǎng)一位擁有豐富經(jīng)驗并且能夠根據(jù)市場動態(tài)及時修改芯片設(shè)計方案的成熟工程師，至少需要10年。

國產(chǎn)GPU公司及其業(yè)務(wù)簡介

中國GPU市場規(guī)模和潛力非常大，龐大的整機(jī)制造能力意味著巨量的GPU采購。雖然近些年，計算機(jī)整機(jī)和智能手機(jī)產(chǎn)量增長都出現(xiàn)瓶頸，但由于這兩類產(chǎn)品體量龐大，2019年國內(nèi)智能手機(jī)出貨量為3.72億部，電子計算機(jī)整機(jī)年產(chǎn)量達(dá)到3.56億臺，GPU的需求量大且單品價值非常高，市場規(guī)模依然非常可觀。

同時，服務(wù)器GPU伴隨著整機(jī)出貨的快速成長，需求量增長也較為迅速。據(jù)統(tǒng)計，2018年國內(nèi)服務(wù)器出貨量達(dá)到330.4萬臺，同比增長26%，其中互聯(lián)網(wǎng)、電信、金融和服務(wù)業(yè)等行業(yè)的出貨量增速也均超過20%。另外，國內(nèi)在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等新興計算領(lǐng)域，對GPU也存在海量的需求。

據(jù)統(tǒng)計，近年來中國集成電路自給率不斷提升，2018年為13%，預(yù)計2020年有望提升至15%，但仍然處于較低水平。根據(jù)國務(wù)院印發(fā)的《新時期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》等文件，中國芯片自給率要在2025年達(dá)到70%，這將產(chǎn)生8000億元的國產(chǎn)芯片需求。中國芯片產(chǎn)業(yè)發(fā)展空間非常大。

2019年中國大陸集成電路進(jìn)口額結(jié)構(gòu)

2012-2020年中國大陸集成電路自給率

1、景嘉微：具有完全自主知識產(chǎn)權(quán)，打破國外GPU長期壟斷

長沙景嘉微電子股份有限公司成立于2006年4月，位于長沙市高新技術(shù)開發(fā)區(qū)，公司擁有經(jīng)驗豐富的集成電路設(shè)計團(tuán)隊，是國產(chǎn)GPU的主要參與者，也是唯一自主開發(fā)并已經(jīng)大規(guī)模商用的企業(yè)。

2014年4月，成功研發(fā)出國內(nèi)首款國產(chǎn)高可靠、低功耗GPU芯片-JM5400，具有完全自主知識產(chǎn)權(quán)，打破了國外產(chǎn)品長期壟斷我國GPU市場的局面，在多個國家重點項目中得到了成功的應(yīng)用；

2018年8月，公司自主研發(fā)的新一代高性能、高可靠GPU芯片-JM7200流片成功，將國產(chǎn)GPU的技術(shù)發(fā)展提高到新的水平，可為各類信息系統(tǒng)提供強(qiáng)大的顯示能力；

2019年，公司在JM7200基礎(chǔ)上，推出了商用版本-JM7201，滿足桌面系統(tǒng)高性能顯示需求，并全面支持國產(chǎn)CPU和國產(chǎn)操作系統(tǒng)，推動國產(chǎn)計算機(jī)的生態(tài)構(gòu)建和進(jìn)一步完善。

景嘉微發(fā)展歷程

景嘉微已完成兩個系列、三款GPU的量產(chǎn)應(yīng)用，產(chǎn)品覆蓋軍用和民用兩大市場。景嘉微第一代GPU JM5400主要運用于軍用市場，替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產(chǎn)品性能和工藝設(shè)計上較JM5400有較大提升，是首例進(jìn)入民用市場的圖形芯片。公司與國內(nèi)主要CPU廠商和計算機(jī)整機(jī)廠商已建立合作關(guān)系。JM7201在JM7200的基礎(chǔ)上對民用市場的桌面應(yīng)用進(jìn)行了優(yōu)化，推出標(biāo)準(zhǔn)MXM和標(biāo)準(zhǔn)PCIE顯卡，在保證性能的同時，降低了功耗，縮小了體積。

景嘉微國產(chǎn)GPU芯片產(chǎn)品線

景嘉微的第二代GPU JM7200系列于2018年8月流片成功，并在2019年3月獲得首個訂單。相較于前代JM5400，JM7200在理論性能上有翻倍的提升，同時制程也進(jìn)化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點性能等方面較2012年發(fā)售，采用完整版GK107核心的英偉達(dá)GT640還有相當(dāng)差距。

各景嘉微GPU參數(shù)對比

2018年12月，景嘉微定增募集10.88億元，用于高性能通用圖形處理器和面向消費電子領(lǐng)域的通用類芯片研發(fā)和產(chǎn)業(yè)化項目。其中，高性能通用圖形處理器項目包括JM9231和JM9271兩款GPU芯片，分別面向不同應(yīng)用領(lǐng)域的中、高檔系列產(chǎn)品。據(jù)公司2020年中報顯示，下一代圖形處理器研發(fā)處于后端設(shè)計階段，研發(fā)進(jìn)程一切順利。

景嘉微JM9系列是繼JM5400和JM7200局部渲染計算內(nèi)核之后，首次采用統(tǒng)一渲染結(jié)構(gòu)的GPU，并且增加了可編程計算模塊數(shù)量。JM9231和JM9271在性能表現(xiàn)分別與英偉達(dá)于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年，大幅提升公司在GPU領(lǐng)域的競爭力。

景嘉微后續(xù)高性能通用GPU性能參數(shù)對比

2、芯原微電子：國產(chǎn)GPU IP龍頭

芯原微電子是依托自主半導(dǎo)體IP，為客戶提供平臺化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體IP授權(quán)服務(wù)的企業(yè)。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統(tǒng)處理器、視頻監(jiān)控、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案，以及5類自主可控的處理器IP，分別為圖形處理器IP、神經(jīng)網(wǎng)絡(luò)處理器IP、視頻處理器IP、數(shù)字信號處理器IP和圖像信號處理器IP，以及1,400多個數(shù)模混合IP和射頻IP，年均流片項目超過40個。主營業(yè)務(wù)的應(yīng)用領(lǐng)域廣泛包括消費電子、汽車電子、計算機(jī)及周邊、工業(yè)、數(shù)據(jù)處理、物聯(lián)網(wǎng)等，主要客戶包括IDM、芯片設(shè)計公司，以及系統(tǒng)廠商、大型物聯(lián)網(wǎng)公司等。

芯原在傳統(tǒng)CMOS、先進(jìn)FinFET和FD-SOI等全球主流半導(dǎo)體工藝節(jié)點上都具有優(yōu)秀的設(shè)計能力，先進(jìn)工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI，并已開始進(jìn)行5nm FinFET 芯片的設(shè)計研發(fā)和新一代 FD-SOI 工藝節(jié)點芯片的設(shè)計預(yù)研。

此外，根據(jù)Ipnest統(tǒng)計，芯原是2019年中國大陸排名第一、全球排名第七的半導(dǎo)體IP授權(quán)服務(wù)供應(yīng)商，全球市場占有率約為1.8%。

芯原股份發(fā)展歷程

2019全球IP企業(yè)市占率排名

芯原GPU IP源于公司在2016年收購的美國嵌入式GPU設(shè)計商圖芯技術(shù)（Vivante）。芯原在GPU IP領(lǐng)域已經(jīng)掌握了支持主流圖形加速標(biāo)準(zhǔn)、自主可控指令集和可拓展性強(qiáng)，性能范圍廣泛等核心技術(shù)，可廣泛應(yīng)用于IOT、汽車電子、PC等市場。根據(jù) IPnest 報告，芯原GPU IP（含 ISP）市場占有率排名全球前三，僅次于ARM和Imagination，2019 年全球市場占有率約為 11.8%。

目前，芯原在圖形處理器技術(shù)的研發(fā)課題包括通用圖形處理器運算內(nèi)核的持續(xù)優(yōu)化和矢量圖形處理器DDR-Less技術(shù)。矢量GPU DDR-Less技術(shù)可以在不使用外部存儲器DDR的基礎(chǔ)上，實現(xiàn)架構(gòu)清晰、分工明確、易于使用、軟件控制流程簡單等優(yōu)點，適用于物聯(lián)網(wǎng)、可穿戴設(shè)備和車載設(shè)備。

2019全球IP設(shè)計分類

芯原GPU IP的核心技術(shù)和典型應(yīng)用示例

芯原可拓展Vivante GPU IP應(yīng)用涵蓋從低功耗的小型物聯(lián)網(wǎng)MCU（GPU Nano IP系列）到面向汽車和計算機(jī)應(yīng)用的強(qiáng)大SoC（GPUArcturus圖形IP），可滿足各種芯片尺寸和功耗預(yù)算，是具有成本效益的優(yōu)質(zhì)圖形處理器解決方案。

芯原的的圖形處理器技術(shù)支持業(yè)界主流的嵌入式圖形加速標(biāo)準(zhǔn)Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等，具有自主可控的指令集及專用編譯器，支持每秒2500億次的浮點運算能力及128個并行著色器處理單元。

芯原GPU Nano IP產(chǎn)品線及其可應(yīng)用場景

芯原GPU IP API和操作系統(tǒng)兼容性

芯原股份現(xiàn)有的半導(dǎo)體IP分為處理器IP、數(shù)模混合IP及射頻IP，其中GPU IP隸屬于處理器IP。整體來看，2017-2019芯原得益于不斷豐富的IP儲備及一站式芯片定制業(yè)務(wù)的協(xié)同效應(yīng)，公司半導(dǎo)體IP授權(quán)業(yè)務(wù)收入持續(xù)上升，GPU IP的年復(fù)合增速達(dá)13%。2019年GPU IP的營收占公司半導(dǎo)體IP營收的31.29%，主要由于其他類型IP收入上升，GPU IP比重相對下降。

芯原在圖形處理器技術(shù)方面的研發(fā)包括高性能的通用圖形處理器GC8400 IP，該IP適用于汽車電子，目前仍處IP設(shè)計驗證階段，擬達(dá)到每秒1萬億次的浮點運算能力雙倍精密度，512個并行著色器處理單元。

3、航錦科技

航錦科技是一家大型化工生產(chǎn)基地，公司的前身是錦西化工總廠。2017下半年，航錦科技通過收購長沙韶關(guān)和威科電子兩家軍工企業(yè)，挺進(jìn)電子產(chǎn)業(yè)，形成化工+電子雙主業(yè)發(fā)展模式，構(gòu)建起三個支撐板塊（化工、電子、金融）。

航錦科技電子板塊以芯片為核心產(chǎn)品，圍繞高端芯片與通信兩大領(lǐng)域，覆蓋高端芯片（圖形處理芯片/特種FPGA/存儲芯片/總線接口芯片）、北斗3芯片以及通信射頻三大主要產(chǎn)業(yè)。堅持軍民兩用為發(fā)展方向，產(chǎn)品廣泛應(yīng)用于航空、航天、兵器、船舶、電子等領(lǐng)域，擁有廣闊的市場空間。

航錦科技的GPU技術(shù)源于并購的長沙韶光。2018年，長沙韶光自主研發(fā)和合作研發(fā)的第一代及第二代圖形處理芯片（GPU）獲得集成電路布圖設(shè)計登記證書；2019年，長沙韶光自主研發(fā)的第二代改進(jìn)型圖形處理芯片在自主可控設(shè)備領(lǐng)域的應(yīng)用得到驗證，并收獲相關(guān)訂單。

航錦科技自主可控芯片板塊示意圖

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術(shù)

上海兆芯集成電路有限公司，簡稱“兆芯”，由上海聯(lián)合投資有限公司（上海市國資委完全出資）和中國臺灣威盛電子共同成立，也是世界上第三家擁有X86授權(quán)的微處理器公司，總部位于上海張江，在北京、西安、武漢、深圳等地設(shè)有研發(fā)中心和分支機(jī)構(gòu)。

公司同時掌握CPU、GPU、芯片組三大核心技術(shù)，且具備三大核心芯片及相關(guān)IP設(shè)計與研發(fā)的能力，致力于通過技術(shù)創(chuàng)新與兼容主流的發(fā)展路線，推動信息產(chǎn)業(yè)的整體發(fā)展，并獲評了“高新技術(shù)企業(yè)資質(zhì)”。兆芯提供了桌面整機(jī)，服務(wù)器，工業(yè)主板，工業(yè)平臺，系統(tǒng)級解決方案，在黨政辦公，交通，金融，能源，教育，網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用。

2019Q2，兆芯發(fā)布了全新的用于PC的處理器KX-6000系列。KX-6000是業(yè)內(nèi)第一款完整集成CPU、GPU、芯片組的SoC單芯片國產(chǎn)通用處理器。

KX-6000系列處理器采用16納米制程，集成高性能顯卡，支持DP/HDMI/VGA輸出，兼容DirectX、OpenGL、OpenCL等主流API，最高可同時輸出3臺顯示器，分辨率可達(dá)4K。

全新的KX-6000系列處理器擁有出色的兼容性和應(yīng)用體驗，包括Windows操作系統(tǒng)，日常辦公應(yīng)用，4K視頻解碼和主流游戲。

兆芯KX-6000系列兼容性和應(yīng)用體驗

兆芯KX-6000處理器芯片架構(gòu)

兆芯KX-6000處理器集成顯卡參數(shù)

兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅(qū)動的情況下，Dota 2游戲性能表現(xiàn)遠(yuǎn)落后英特爾酷睿i5-7400的UHD 630。未來，兆芯還會對KX系列處理器進(jìn)行進(jìn)一步的更新，使用全新的CPU架構(gòu)，將內(nèi)存從DDR4升級為DDR5，將總線從PCIe3.0升級至PCIe4.0。內(nèi)存和總線的升級分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。

除了以上集成GPU外，兆芯還計劃發(fā)布一款采用臺積電28納米工藝，TDP 70瓦的獨立GPU。

兆芯KX6000 GPU游戲性能對比

兆芯處理器發(fā)展路線圖

5、凌久電子GPU

凌久電子創(chuàng)立于1983年，是中國船舶重工集團(tuán)公司第七〇九研究所控股的高新技術(shù)企業(yè)。

凌久電子以嵌入式實時信號處理與高性能計算技術(shù)為基礎(chǔ)，面向船舶、航空、航天、兵器等國防電子領(lǐng)域及軌道交通、海工裝備、能源電力、半導(dǎo)體制造等民用高科技領(lǐng)域提供芯片級、模塊級、設(shè)備級、系統(tǒng)級等軟硬件產(chǎn)品；面向科研院所、部隊及軍校提供作定制化軍事仿真服務(wù)。

凌久電子產(chǎn)品包括元器件類產(chǎn)品、基礎(chǔ)硬件設(shè)備、基礎(chǔ)支撐軟件、應(yīng)用類產(chǎn)品四大類。其中國產(chǎn)通用GPU GP101隸屬于元器件類產(chǎn)品。

凌久電子平臺產(chǎn)品

凌久電子元器件類產(chǎn)品分類

凌久電子股權(quán)結(jié)構(gòu)

GP101是由中國船舶重工集團(tuán)第709研究所控股的凌久電子研制，具備完全自主知識產(chǎn)權(quán)的圖形處理器芯片。GP101支持2D/3D圖形加速，支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統(tǒng)，支持中標(biāo)麒麟、道等國產(chǎn)操作系統(tǒng)，支持龍芯、飛騰、申威等國產(chǎn)處理器。

GP101實現(xiàn)了我國通用3D顯卡零的突破，在信息安全和供貨能力方便有充分的保障,可以廣泛應(yīng)用于軍民多個領(lǐng)域。

6、中船重工716研究所：JARI G12 GPU

七一六所自主研發(fā)的JARI G12是2018年性能最強(qiáng)的國產(chǎn)通用圖形處理器。該處理器采用混合渲染架構(gòu)，兼顧數(shù)據(jù)帶寬和渲染延時需求，極大地增強(qiáng)了芯片的靈活性和適應(yīng)性；

提供PCIe 3.0總線，支持x86處理器和龍芯、飛騰、申威等國產(chǎn)處理器；支持4路數(shù)字通道和1路VGA輸出，提供DP、eDP、HDMI、DVI等通用顯示介面，單路數(shù)字通道最大輸出分辨率為3840×2160@60fps，支持?jǐn)U展、復(fù)制顯示和“擴(kuò)展+復(fù)制”顯示模式；

內(nèi)建視頻編解碼硬核，支持2路3840×2160分辨率視頻的編碼、解碼功能；

支持OpenGL 4.5和OpenGL ES 3.0，滿足高性能3D加速和VR顯示需求；

支持OpenCL 2.0，滿足并行計算和云計算的使用需求；

集成張量加速計算硬核，支持AI計算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統(tǒng)，同時支持中標(biāo)麒麟、JARI-Works、道等國內(nèi)自主可控操作系統(tǒng)，具備健全的生態(tài)環(huán)境體系。

JARI G12架構(gòu)示意圖

7、芯動科技：國產(chǎn)IP和芯片定制先驅(qū)

芯動科技是中國一站式IP和芯片定制領(lǐng)軍企業(yè)，提供全球6大工藝廠（臺積電/三星/格芯/中芯國際/聯(lián)華電子/英特爾）從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案，聚焦先進(jìn)制程。

芯動科技15年來立足本土發(fā)展，所有IP和產(chǎn)品全自主可控，連續(xù)十年中國市場份額領(lǐng)先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業(yè)。

在高性能計算/多媒體&汽車電子/IoT物聯(lián)網(wǎng)等領(lǐng)域，芯動解決方案具有國際先進(jìn)水平，涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes（含 PCIe5/4/USB3.2/SATA/RapidIO/GMII等）、ADC/DAC、智能圖像處理器GPU和多媒體處理內(nèi)核等多種技術(shù)。芯動科技的芯片定制，跨工藝跨封裝，涉及從需求到產(chǎn)品，能端到端為客戶加速從規(guī)格、設(shè)計到流片量產(chǎn)，及封裝成型全流程。

芯動科技一站式IP系列

芯動科技高性能計算平臺IP

2020年10月13日，芯動科技與Imagination達(dá)成合作。采用最前沿的多晶粒芯片（chiplet）和GDDR6高速顯存等SOC創(chuàng)新，芯動科技將全球首發(fā)Imagination全新頂配BXT多核架構(gòu)。

在信創(chuàng)和算力安全方面，“風(fēng)華”系列GPU內(nèi)置國產(chǎn)物理不可克隆iUnique Security PUF信息安全加密技術(shù)，提升數(shù)據(jù)安全和算力抗攻擊性，支持桌面電腦和數(shù)據(jù)中心GPU計算自主可控生態(tài)。

“風(fēng)華”系列GPU自帶浮點和智能3D圖形處理功能，全定制多級流水計算內(nèi)核，兼具高性能渲染和智能AI算力，還可級聯(lián)組合多顆芯片合并處理能力，靈活性強(qiáng)，適配國產(chǎn)桌面市場1080P/4K/8K高品質(zhì)顯示，支持VR/AR/AI，多路服務(wù)器云桌面、5G數(shù)據(jù)中心、云教育、云游戲、云辦公等中國新基建5G風(fēng)口下的大數(shù)據(jù)圖形應(yīng)用場景。

8、華為海思：GPU Turbo

GPU Turbo是一種軟硬協(xié)同的圖形加速技術(shù)，可以減少無用渲染次數(shù)，優(yōu)化或合并渲染區(qū)域。通過算法，將相關(guān)運算放在一個或相鄰的寄存器中，以此來優(yōu)化圖形處理效率。

GPU Turbo技術(shù)打通了EMUI操作系統(tǒng)以及GPU和CPU之間的處理瓶頸，在系統(tǒng)底層對傳統(tǒng)的圖形處理框架進(jìn)行了重構(gòu)，實現(xiàn)了軟硬件協(xié)同，使得GPU圖形處理整體效率得到大幅提升。

2018年6月發(fā)布了GPU Turbo 1.0，圖形處理效率提高60%，同時做到更省電，保證高畫質(zhì)。

2018年9月發(fā)布了GPU Turbo 2.0，游戲場景下功耗下降可達(dá)13.6%，新增支持多款主流游戲，同時針對支持的游戲中關(guān)鍵&極限場景（如團(tuán)戰(zhàn)、載具等）進(jìn)行了重點打磨與優(yōu)化。

2019年4月GPU Turbo全新升級，不僅帶來主流游戲接近滿幀運行的酣暢體驗，功耗的持續(xù)降低也帶來了續(xù)航時間的提升。累計支持60款國內(nèi)游戲。

GPU Turbo 2.0能效對比

9、龍芯：GPU突擊隊

中科院計算所于2001年成立龍芯課題組，開始研制龍芯系列處理器，得到了中科院、863、973、核高基等項目大力支持，完成了十年的核心技術(shù)積累。2010年4月，中國科學(xué)院和北京市共同牽頭出資入股，成立龍芯中科技術(shù)有限公司，龍芯正式從研發(fā)走向產(chǎn)業(yè)化。

目前，龍芯自主研發(fā)的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理器的芯片組，通過HT3.0接口與處理器相連，集成GPU、顯示控制器和獨立顯存接口，外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口，可以滿足桌面和服務(wù)器領(lǐng)域?qū)O接口的應(yīng)用需求，并通過外接獨立顯卡的方式支持高性能圖形應(yīng)用需求。

雖然龍芯7A1000橋片的GPU性能一般，但是橋片作為CPU產(chǎn)業(yè)鏈的一環(huán)，龍芯已經(jīng)實現(xiàn)CPU、橋片和GPU上完全自主化，打通了CPU產(chǎn)業(yè)鏈上每一個環(huán)節(jié)。

2020年，龍芯成立六支研發(fā)突擊隊，分別為3A5000突擊隊、3C5000突擊隊、7A2000突擊隊、2K2000突擊隊、GPU突擊隊、PCIE突擊隊。這六支突擊隊的目的就是要把2-3年的工作，在一年內(nèi)干完！

龍芯7A1000

龍芯7A1000 GPU相關(guān)參數(shù)

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計新星

芯瞳半導(dǎo)體成立于2019年，主要業(yè)務(wù)包括GPU芯片設(shè)計、異構(gòu)計算平臺方案、嵌入式顯示系統(tǒng)解決方案、GPU應(yīng)用部署解決方案。公司著力于研發(fā)高性能的GPU芯片，為用戶提供以自研GPU芯片為核心的解決方案，致力于打造業(yè)界領(lǐng)先的GPU芯片設(shè)計平臺，目標(biāo)是成為國際一流的GPU芯片設(shè)計企業(yè)。公司創(chuàng)始團(tuán)隊在GPU領(lǐng)域有著超過10年的學(xué)術(shù)和工程經(jīng)驗，是一支軟硬件全棧式支持的研發(fā)團(tuán)隊。

公司的GPU架構(gòu)采用了業(yè)界主流的統(tǒng)一渲染架構(gòu)，并具有高度可擴(kuò)展的互聯(lián)結(jié)構(gòu)和計算陣列，便于芯片后續(xù)迭代升級。經(jīng)過多年的積累，團(tuán)隊構(gòu)建了芯片建模虛擬平臺，通過該虛擬平臺，團(tuán)隊可以快速地完成GPU相關(guān)軟件的研發(fā)和軟件生態(tài)的部署，與此同時，在該虛擬平臺上快速地對芯片架構(gòu)進(jìn)行驗證，從而縮短GPU芯片的設(shè)計驗證周期，提升GPU芯片的設(shè)計效能。

公司第一代GPU芯片（GenBu01）初測已成功，已與統(tǒng)信、麒麟及昆侖完成適配，目前正在為小批量量產(chǎn)做最終測試。 GenBu01主要面向的客戶為需要定制嵌入式計算機(jī)產(chǎn)品的客戶以及為國產(chǎn)替代領(lǐng)域提供信創(chuàng)辦公PC的ODM/OEM廠商。

芯瞳GenBu01參數(shù)

11、天數(shù)智芯：國產(chǎn)GPGPU領(lǐng)跑者

天數(shù)智芯于2018年正式啟動GPGPU芯片設(shè)計，是中國第一家GPGPU高端芯片及超級算力提供商。天數(shù)智芯重點打造自主可控、國際一流的通用、標(biāo)準(zhǔn)、高性能云端計算芯片GPGPU，從芯片端解決計算力問題；并推出面向5G技術(shù)需求的邊緣云端推理GPGPU，提供對當(dāng)前進(jìn)口主流GPGPU體系的無縫兼容和市場化選擇。2021年1月15日，天數(shù)智芯成功點亮自研7納米制程GPGPU云端訓(xùn)練芯片，性能達(dá)市場主流產(chǎn)品的兩倍。該芯片量產(chǎn)后將廣泛應(yīng)用于AI訓(xùn)練、高性能計算（HPC）等場景，服務(wù)于教育、互聯(lián)網(wǎng)、金融、自動駕駛、醫(yī)療、安防等各相關(guān)行業(yè)，賦能AI智能社會。

天數(shù)智芯7納米GPGPU高端自研云端訓(xùn)練芯片的產(chǎn)品優(yōu)勢包括：全方位生態(tài)兼容、高性能有效算力、指令集編程架構(gòu)、軟硬件全棧支持、全自主知識產(chǎn)權(quán)。

天數(shù)智芯GPGPU BI芯片參數(shù)

12、壁仞科技和沐曦集成電路

壁仞科技創(chuàng)立于2019年，團(tuán)隊由國內(nèi)外芯片和云計算領(lǐng)域核心專業(yè)人員、研發(fā)人員組成，在GPU、DSA（專用加速器）和計算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨到的行業(yè)洞見。

壁仞科技致力于開發(fā)原創(chuàng)性的通用計算體系，建立高效的軟硬件平臺，同時在智能計算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上，壁仞科技將首先聚焦云端通用智能計算，逐步在人工智能訓(xùn)練和推理、圖形渲染、高性能通用計算等多個領(lǐng)域趕超現(xiàn)有解決方案，實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。

沐曦集成電路專注于設(shè)計具有完全自主知識產(chǎn)權(quán)，針對異構(gòu)計算等各類應(yīng)用的高性能通用GPU芯片。公司致力于打造國內(nèi)最強(qiáng)商用GPU芯片，產(chǎn)品主要應(yīng)用方向包含傳統(tǒng)GPU及移動應(yīng)用，人工智能、云計算、數(shù)據(jù)中心等高性能異構(gòu)計算領(lǐng)域。

對于研發(fā)的方向，沐曦表示將采用業(yè)界最先進(jìn)的5nm工藝技術(shù)，研發(fā)全兼容CUDA及ROCm生態(tài)的國產(chǎn)高性能GPU芯片，滿足HPC、數(shù)據(jù)中心及AI等方面的計算需求。GPU將采用原創(chuàng)專利保護(hù)的可重構(gòu)GPU架構(gòu)，突破傳統(tǒng)GPU芯片能效瓶頸；采用數(shù)據(jù)壓縮，數(shù)據(jù)廣播以及共享硬件加速單元等先進(jìn)技術(shù)，大幅度優(yōu)化核心算力能耗比。

沐曦高性能GPU研發(fā)項目

12、登臨科技和摩爾線程

登臨科技成立于2017年11月，是一家專注于為新興計算領(lǐng)域提供高性能、高功效計算平臺的高科技企業(yè)。公司的產(chǎn)品是以芯片為核心的系統(tǒng)解決方案，在所有核心IP上堅持自研路線。登臨科技已完成由元禾璞華、元生資本聯(lián)合領(lǐng)投的A+輪融資，包括北極光在內(nèi)的老股東持續(xù)在本輪加碼跟進(jìn)。登臨科技的首款GPU+（軟件定義的片內(nèi)異構(gòu)通用人工智能處理器)產(chǎn)品已成功回片通過測試，開始客戶送樣，公司團(tuán)隊具備架構(gòu)、系統(tǒng)、軟件、硬件、芯片、驗證等方面的綜合能力。

登臨科技GoldwasserTM GPU+產(chǎn)品在現(xiàn)有市場主流的GPU架構(gòu)上，創(chuàng)新采用軟硬件協(xié)同的異構(gòu)設(shè)計。GPU+異構(gòu)設(shè)計讓產(chǎn)品在對客戶實際業(yè)務(wù)繼承在現(xiàn)有生態(tài)上的投入、在保證極高兼容性的同時，相比傳統(tǒng)GPU在AI計算上性能和能效均有明顯提升，大大降低了外部帶寬的需求，顯著降低客戶總擁有成本。

摩爾線程創(chuàng)立于2020年10月，去年12月獲得天使輪融資，今年2月22日獲得Pre-A輪融資。摩爾線程致力于構(gòu)建中國視覺計算和人工智能領(lǐng)域計算平臺，研發(fā)全球領(lǐng)先的自主創(chuàng)新GPU知識產(chǎn)權(quán)，其GPU產(chǎn)品線覆蓋通用圖形計算和高性能計算。公司核心成員主要來自英偉達(dá)、微軟、英特爾、AMD、ARM等，覆蓋GPU研發(fā)設(shè)計、生產(chǎn)制造、市場銷售、服務(wù)支持等完整架構(gòu)。

13、國產(chǎn)GPU新星：翰博半導(dǎo)體

翰博半導(dǎo)體成立于2018年12月，立志于發(fā)展成為國際頂尖的芯片公司，立足于中國市場，填補(bǔ)國內(nèi)市場國產(chǎn)芯片的空白，為智能應(yīng)用提供高效算力，為人工智能創(chuàng)新以及應(yīng)用落地賦能。

翰博半導(dǎo)體擁有國內(nèi)外專家組成的團(tuán)隊。公司核心員工來自世界頂級的高科技公司，平均擁有15年以上的相關(guān)芯片，軟件設(shè)計經(jīng)驗。

瀚博的產(chǎn)品注重計算機(jī)視覺及視頻處理的優(yōu)化，提供豐富的特性，高效的性能/功耗；適用多個人工智能領(lǐng)域。產(chǎn)品覆蓋從邊到云，SOC及服務(wù)器市場。

翰博半導(dǎo)體CEO—錢軍擁有25年以上高端芯片設(shè)計經(jīng)驗和40多款芯片設(shè)計和量產(chǎn)的經(jīng)驗，帶隊設(shè)計量產(chǎn)業(yè)界第一顆7納米圖像處理器和AI服務(wù)器芯片，曾任AMD高管Senior Director，直接負(fù)責(zé)設(shè)計團(tuán)隊超過800人，全面負(fù)責(zé)GPU（圖像處理器和AI服務(wù)器）芯片設(shè)計和生產(chǎn)，現(xiàn)在市場上所有AMD Radeon圖像處理器和AI服務(wù)器都是由其帶隊開發(fā)，包括多個系列DGPU和MI系列產(chǎn)品。

14、國產(chǎn)GPU新星：燧原科技

燧原科技成立于2018年3月，專注于人工智能領(lǐng)域云端算力平臺，致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案，提供自主知識產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品。

燧原科技的產(chǎn)品技術(shù)由訓(xùn)練、推理、軟件平臺構(gòu)成。其中，訓(xùn)練業(yè)務(wù)包含加速卡 “云燧T10” 和“云燧T11”；推理業(yè)務(wù)包含加速卡 “云燧i10”；軟件平臺包含“馭算”。

“云燧”系列加速卡采用自研DTU架構(gòu)，支持ESL高速互聯(lián)和開放生態(tài)。 “云燧”芯片采用格羅方德的12nm FinFET工藝，結(jié)合 2.5D先進(jìn)封裝，擁有141億晶體管和16GB HBM2顯存，在FP32的算力和能效比方面領(lǐng)先GPU。

計算及編程平臺“馭算”，由燧原自主研發(fā)，支持主流深度學(xué)習(xí)框架，并針對邃思芯片進(jìn)行了針對性優(yōu)化。

智東西認(rèn)為，GPU設(shè)計之初是為了圖像處理，但是隨著技術(shù)的不斷迭代升級，GPU的功能已經(jīng)不僅限于“畫圖”，憑借在并行處理和通用計算的優(yōu)勢，GPU在服務(wù)器、汽車、人工智能、邊緣計算等領(lǐng)域已經(jīng)開始大放異彩。現(xiàn)階段，雖然國產(chǎn)GPU與英偉達(dá)、AMD等世界巨頭差距明顯，但在一些空白的細(xì)分領(lǐng)域或許有很大的“彎道超車”空間。

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

一、GPU：專用計算時代的“畫師”

二、GPU的全球格局

1、英偉達(dá)

2、全球GPU先驅(qū)：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動GPU先驅(qū)

7、蘋果：全球移動GPU新秀

三、國產(chǎn)GPU自主之路

1、景嘉微：具有完全自主知識產(chǎn)權(quán)，打破國外GPU長期壟斷

2、芯原微電子：國產(chǎn)GPU IP龍頭

3、航錦科技

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術(shù)

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動科技：國產(chǎn)IP和芯片定制先驅(qū)

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計新星

11、天數(shù)智芯：國產(chǎn)GPGPU領(lǐng)跑者

12、壁仞科技和沐曦集成電路

12、登臨科技和摩爾線程

13、國產(chǎn)GPU新星：翰博半導(dǎo)體

14、國產(chǎn)GPU新星：燧原科技