欄目導(dǎo)航

新聞資訊

新聞資訊

一、顯卡的定義及功能

顯卡也被稱為顯示適配器或圖形適配器，將電腦的數(shù)據(jù)轉(zhuǎn)換成圖像輸出，一般安裝在主板上，并與顯示器連接，是主機(jī)與顯示器之間的橋梁。

1.顯卡的組成：顯存、顯示芯片、數(shù)模轉(zhuǎn)換器、VGA BIOS等。

顯存：顯卡內(nèi)存，存放需要處理的電腦數(shù)據(jù)

數(shù)模轉(zhuǎn)換器：將離散數(shù)據(jù)轉(zhuǎn)換成模擬量的轉(zhuǎn)換器

VGA BIOS：顯卡基本輸入輸出系統(tǒng)

2.顯卡的數(shù)據(jù)處理過程：

（1）CPU將數(shù)據(jù)傳輸?shù)斤@示芯片中；

（2）顯示芯片處理數(shù)據(jù)，并將數(shù)據(jù)存入顯存

（3）數(shù)模轉(zhuǎn)換器判斷是否需要對(duì)顯存中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換；

（4）數(shù)模轉(zhuǎn)換器將轉(zhuǎn)換后的數(shù)據(jù)通過接口傳輸?shù)斤@示器上。

二、顯卡的命名

顯卡主要有NVIDIA和AMD兩種品牌。

1.先看NVIDIA顯卡的命名規(guī)則，如NVIDIA GeForce RTX 3060 TI：

NVIDIA GeForce RTX 3060 TI

NVIDIA—顯卡品牌：英偉達(dá)；

GeForce—顯卡產(chǎn)品的英文商標(biāo)：英偉達(dá)核心產(chǎn)品之一；

RTX—顯卡定位：GTX高端，GTS中端，GT低端，RTX新一代高端；

30—第幾代：這張是第30代，越高性能越強(qiáng)；

6—性能檔次定位：數(shù)字越高在這一代里性能就越強(qiáng)；

TI—特殊版本：TI增強(qiáng)版，Super小幅增強(qiáng)版，SE削弱版，M是移動(dòng)版（筆記本），無后綴代表普通版。

2.再看AMD顯卡的命名規(guī)則，如AMD Radeon RX 6700 XT：

AMD Radeon RX 6700 XT

AMD—顯卡品牌名：AMD顯卡；

Radeon—顯卡系列：有Radeon、Radeon Pro等；

RX—：顯卡的細(xì)分名稱；

6—系列號(hào)：6代表第6系列，基本上越大越好；

70—性能檔次的定位：數(shù)字越高在這一系列里性能就越強(qiáng)；

XT—特殊版本：大致性能排序XTX > XT > XL/GTO > Pro/gt > SE，無后綴代表普通版。。

三、顯卡的分類及接口

1.顯卡接口主要分四種：ISA、PCI、AGP、PCI-e，不過ISA、AGP接口已經(jīng)逐漸被取消了。

ISA：早期的一種顯卡接口，可以連接網(wǎng)卡、聲卡，但是存在工作頻率低、傳輸速度慢的缺點(diǎn)，后來逐漸被PCI接口代。

PCI：顯卡早期的一種接口，反應(yīng)速度比較慢。CPU無法直接讀取顯卡中的數(shù)據(jù)。

AGP：PCIe出現(xiàn)之前，顯卡最主要接口，散熱慢，所以后來也逐漸被淘汰了。

PCI-e：反應(yīng)速度快、傳輸速率快、兼容性強(qiáng)。CPU可直接讀取數(shù)據(jù)。

目前大多的獨(dú)立顯卡用的都是PCI-e接口。

2.根據(jù)是否與主板集成，顯卡可大致分為兩類：集成顯卡和獨(dú)立顯卡。

集成顯卡：指與CPU內(nèi)置在同一封裝中的GPU。集成顯卡一般不帶顯存，直接使用系統(tǒng)的部分內(nèi)存作為顯存，所以使用集成顯卡會(huì)占用內(nèi)存空間，影響系統(tǒng)性能。

獨(dú)立顯卡：將顯示芯片及相關(guān)器件制作成一個(gè)獨(dú)立于電腦主板的板卡，成為專業(yè)的圖像處理硬件設(shè)備。獨(dú)立顯卡的性能比集成顯卡更好，一般游戲愛好者使用的多是獨(dú)立顯卡。

讀：本文帶你回顧從CPU到GPU的歷史，再展望從GPU到TPU的未來。

作者：錢綱

來源：華章科技

01 第一代、第二代GPU

1998年英偉達(dá)宣布GPU的研發(fā)成功，是計(jì)算機(jī)顯示的歷史性突破。此后，20世紀(jì)70年代末到1998年被稱為pre-GPU時(shí)代，即前GPU時(shí)代，1998年以后則被稱為GPU時(shí)代。

在前GPU時(shí)代，一些圖形處理器廠商，都研發(fā)了各自的GPU，這些GPU仍然在持續(xù)改進(jìn)并被廣泛使用，其價(jià)格也非常昂貴。

現(xiàn)代GPU中使用的晶體管數(shù)量已遠(yuǎn)超過CPU。2.4GHz的英特爾奔騰IV CPU用到了5500萬個(gè)晶體管，英偉達(dá)在GeForce FX GPU上的晶體管數(shù)量超過了1.25億個(gè)，而英偉達(dá)7800 GTX上的晶體管數(shù)量達(dá)到了3.2億個(gè)。

1993年1月，由黃仁勛等三人發(fā)起成立的英偉達(dá)公司在硅谷中心的圣克拉拉市創(chuàng)建。它是一家為電腦和游戲機(jī)生產(chǎn)顯卡與GPU的芯片設(shè)計(jì)公司。

黃仁勛于1963年出生于中國臺(tái)灣，幼年時(shí)隨父母移居美國。20歲時(shí)，黃仁勛結(jié)識(shí)了現(xiàn)在的妻子洛麗。他向洛麗承諾會(huì)在30歲時(shí)擁有一家自己的公司。1993年，30歲的黃仁勛創(chuàng)建了英偉達(dá)，兌現(xiàn)了這一諾言，也迎來了其人生的轉(zhuǎn)折點(diǎn)。

英偉達(dá)的顯卡產(chǎn)品線分為GeForce和Quadro兩大系列。1999年，GeForce首次亮相，產(chǎn)品覆蓋桌面與移動(dòng)領(lǐng)域。

英偉達(dá)最初的產(chǎn)品NV1和NV2是基于二次曲面貼圖（Quadratic TextureMaps）來實(shí)現(xiàn)三維效果的，它們?cè)谖④浀腄irect 3D多邊形3D圖形標(biāo)準(zhǔn)發(fā)布后，失去了市場。這一失敗讓英偉達(dá)走到了破產(chǎn)的邊緣，若沒有SEGA早期的700萬美元訂單，讓英偉達(dá)還能研發(fā)NV3，英偉達(dá)可能早已不存在了。

因?yàn)镹V1和NV2的失敗，英偉達(dá)把命運(yùn)押注在了NV3上，也是我們熟悉的Riva128顯卡。英偉達(dá)吸取了教訓(xùn)，對(duì)Direct 3D和OpenGL提供了完整的支持。其三維性能在非Glide游戲里超過了voodoo。

voodoo只是純?nèi)S加速卡，而Riva128擁有完整的二維加速能力。Riva128很快成了OEM和零售商的寵兒。1998年，Riva128發(fā)布后不到一年，其出貨量一舉超越了voodoo，讓英偉達(dá)起死回生。

1998年，英偉達(dá)發(fā)布了RivaTNT，但其硬件指標(biāo)不屬于voodoo2 SLI，當(dāng)時(shí)的游戲基本還是以支持Glide為主，但Glide的很多超前特性在DX和OpenGL上根本沒有。TNT的二維畫質(zhì)較差，很多二維用戶對(duì)它提不起興趣。相比之下，英特爾的第一款顯卡i740則具有當(dāng)時(shí)最優(yōu)秀的二維顯示能力并贏得了大量的市場。

1998年的晚些時(shí)候，英偉達(dá)發(fā)布了TNT2。這一款GPU對(duì)TNT的缺點(diǎn)進(jìn)行了全面修正。TNT2給了3Dfx致命一擊。最后，3Dfx的知識(shí)產(chǎn)權(quán)在2000年被英偉達(dá)買斷。

英偉達(dá)的TNT2、ATI的Rage、3Dfx的Voodoo都屬于第一代現(xiàn)代GPU。這一代GPU獨(dú)立于CPU進(jìn)行像素緩存區(qū)的更新，還能光柵化三角面片并進(jìn)行紋理操作，但這一代的GPU不能進(jìn)行三維頂點(diǎn)的空間坐標(biāo)變換，它依賴CPU進(jìn)行頂點(diǎn)坐標(biāo)變換的計(jì)算。第一代GPU的功能有限，只能用于紋理組合的數(shù)學(xué)計(jì)算或者像素色值的計(jì)算。

1999年，英偉達(dá)發(fā)布了Geforce256（見圖25-1），它的核心是NV10，采用0.22微米制程工藝，有四條渲染管線，每一條管線有四個(gè)像素單元，一個(gè)材質(zhì)單元，并提供SDRAM和DDR SDRAM兩種不同顯存的配置，GeForce 256同時(shí)支持Direct3D 7.0、T&L以及OpenGL1.2先進(jìn)的圖形技術(shù)，以至其成為當(dāng)時(shí)生命周期最長的產(chǎn)品。

▲圖25-1 英偉達(dá)的GPU：Geforce256

在發(fā)布Geforce256時(shí)，英偉達(dá)首創(chuàng)了圖形處理器一詞GPU（GrapgicProcess Unit）。在Geforce256之前，T&L由CPU或者另一個(gè)獨(dú)立處理器處理。

把T&L整合到GPU中是一大進(jìn)步，原因是GPU從CPU接管了大量工作。硬件T&L引擎帶來的效果是，三維模型能用更多的多邊形來描繪，這使得三維效果更加細(xì)膩。對(duì)于Lighting來說，CPU不必計(jì)算大量的光照數(shù)據(jù)，直接通過GPU就能獲得更好的效能。

T&L是GPU的一個(gè)規(guī)格名稱，即Transforming和Lighting的首字母縮寫，含義為光影轉(zhuǎn)換。在GPU中，T&L最大的功能是處理圖形的整體角度旋轉(zhuǎn)以及光源陰影等三維效果。

在Geforce256面前，3Dfx完全沒有了反擊的可能。這是一款出類拔萃的芯片，也是世界上第一款真正的GPU。它有對(duì)硬件T&L的完整支持，以及兩倍于TNT2的性能指標(biāo)。使用了DDR內(nèi)存后，它的性能領(lǐng)先voodoo3一倍。Geforce256讓英偉達(dá)稱霸顯卡和GPU市場。

02 第三代、第四代GPU

2000年，ATI發(fā)布了繼Geforce256之后第二款真正的GPU——Radeon256。其性能較前者更優(yōu)。即便與后來的Geforce2 GTS相比也絲毫不差。

2000年，英偉達(dá)發(fā)布了低端經(jīng)典CPU——Geforce2 MX，它讓英偉達(dá)牢牢把持住了低端市場，而3Dfx的境況則越來越凄慘。

2000年，是顯卡廠商大洗牌的開始。S3、SIS等廠商無力與英偉達(dá)和ATI競爭，淡出了顯卡市場。英偉達(dá)的產(chǎn)品細(xì)分策略也讓ATI應(yīng)對(duì)乏力。ATI并沒有成功地挑戰(zhàn)英偉達(dá)的霸主地位，但它選擇了GPU之路，避免了和其他廠商相同的命運(yùn)。

4核的voodoo56000也沒有挽回3Dfx的命運(yùn)，72瓦的高功耗讓它成了第一款需要外置電源的顯卡，AGP接口無法提供那么高的功率。但voodoo5 6000因其稀少，反而成了一款熱門收藏的顯卡。

2000年12月，3Dfx被英偉達(dá)收購。結(jié)束了一代神話，留給人們無盡的感嘆。

2001年，首先出現(xiàn)的是DX版本升級(jí)到了8.0，GeForce3則成為第一款支持DX8.0的GPU。xbox的訂單讓英偉達(dá)如虎添翼，但ATI毫不示弱。2001年中，DX升級(jí)到8.1，而Radeon 8500則成為第一款完整支持DX8.1的GPU，其性能較Geforce3有了明顯的提升。

這使ATI成為繼3Dfx后唯一有實(shí)力和英偉達(dá)競爭的廠商。但Radeon8500的驅(qū)動(dòng)是令人頭痛的問題，瑕不掩瑜，Radeon 8500仍是一款優(yōu)秀的產(chǎn)品。8500的前身Radeon7500以GeFroce2 MX的價(jià)格及超過GeForce2 Pro的性能成為低端GPU明星。

不久，制程更先進(jìn)的GeFroce2Ti和pro因?yàn)樗鼈兏錾男詢r(jià)比讓英偉達(dá)重新贏得了低端市場。這一年，也是ATI成立后的16年來首次出現(xiàn)虧損。

2001年開啟了第三代GPU時(shí)期，第三代GPU有頂點(diǎn)編程能力（Vertex Programmability），如GeForce 4Ti、（見圖25-2）ATI的8500等。這些GPU允許應(yīng)用程序指定一個(gè)序列的指令進(jìn)行頂點(diǎn)操作，這是GPU編程的本質(zhì)。

這是一個(gè)具有開創(chuàng)意義的時(shí)期，這一時(shí)期確立的GPU編程思路且一直延續(xù)至今，它不但深入到工程領(lǐng)域改善了人們的日常生活，而且開創(chuàng)了諸多計(jì)算機(jī)科學(xué)的新領(lǐng)域，如體繪制、光照模擬、人體動(dòng)畫、通用計(jì)算等。同時(shí)，Direct8和OpenGL也提供了對(duì)頂點(diǎn)編程能力的支持。

只是這一代GPU尚沒有支持像素級(jí)的編程能力，即片段編程能力（Fragment Programmability）。

▲圖25-2 英偉達(dá)的GPU：GeForce 4Ti

所謂頂點(diǎn)（Vertex），即我們熟悉的三維圖形的頂點(diǎn)，由于三維模型是基于坐標(biāo)空間內(nèi)部設(shè)計(jì)的，所以頂點(diǎn)信息包含了三維模型在空間內(nèi)的坐標(biāo)等信息。

頂點(diǎn)投影（Vertex Shader）就是頂點(diǎn)信息的運(yùn)算編程器，可以通過賦予特定算法在工作中改變?nèi)S模型的外形，頂點(diǎn)投影的頂點(diǎn)運(yùn)算單元可以直接檢索顯存中的材質(zhì)數(shù)據(jù)。現(xiàn)代三維游戲的場景極為復(fù)雜。所涉及的材質(zhì)和多邊形數(shù)量非常驚人。游戲開發(fā)人員必須利用頂點(diǎn)投影的新特性，充分發(fā)揮想象，實(shí)現(xiàn)漂亮的特效。

2002年，微軟為了對(duì)抗PS2，降價(jià)銷售XBOX。這讓英偉達(dá)很不滿，微軟選擇了ATI作為其下一代主機(jī)的GPU供應(yīng)商。英偉達(dá)毫不示弱，同年發(fā)布了GeForce4系列產(chǎn)品，其低端產(chǎn)品GeForce4 MX440在很長一段時(shí)間內(nèi)都是低端顯卡的性能標(biāo)桿。

英偉達(dá)沒料到的是，這一年ATI祭出了它的極品：R300（見圖25-3）。它具有領(lǐng)先英偉達(dá)產(chǎn)品接近一倍的性能。ATI讓英偉達(dá)措手不及。從此，ATI和英偉達(dá)開始平起平坐。

▲圖25-3 ATI R300的構(gòu)架

R300的出現(xiàn)讓英偉達(dá)措手不及。很快，英偉達(dá)就開發(fā)出了下一代產(chǎn)品：GeForce FX。

但英偉達(dá)太過性急，不成熟的0.13微米工藝及過高的頻率葬送了FX5800Ultra。其性能只是勉強(qiáng)超過了9700pro，然而其發(fā)熱和噪聲成了硬傷。它在GPU史上第一次采用了渦輪散熱。在性能只略高于9700pro的情況下，功耗居然比9700pro高兩倍。這款GPU是英偉達(dá)最失敗的產(chǎn)品。

2003年，ATI推出了支持DX9和DDR2的9800pro。9800XT再次勝過了FX5900。英偉達(dá)后來發(fā)布的FX5950在功耗遠(yuǎn)超9800XT的情況下，性能仍落后于9800XT。這一年，ATI在GPU領(lǐng)域里領(lǐng)先于英偉達(dá)。

2002年末到2003年，第四代GPU即GPGPU出現(xiàn)了。SIGGRAPH 2003大會(huì)上，與會(huì)人士探討了利用GPU進(jìn)行通用計(jì)算的設(shè)想和模型，這奠定了GPGPU的基礎(chǔ)。其后3年，用統(tǒng)一的流處理器取代GPU中原有的不同著色單元的設(shè)計(jì)釋放了GPU的計(jì)算能力，為今天的GPU編程計(jì)算打下了基礎(chǔ)。

英偉達(dá)的GeForceFX和ATI Radeon 9700是第四代GPU的先驅(qū)，這兩款GPU都具有頂點(diǎn)編程和片段編程能力。同時(shí)DirectX和OpenGL也都擴(kuò)展了自身的API，用以支持頂點(diǎn)編程和片段編程。2003年以后，可編程的GPU正式誕生，在DirectX和OpenGL鍥而不舍的改進(jìn)下，基于圖形硬件的編程技術(shù)，即GPU編程，宣告誕生。

可編程GPU也有其缺陷。因?yàn)樵贕PU內(nèi)，任意一個(gè)元素的計(jì)算與其他同類型數(shù)據(jù)無關(guān)，這就導(dǎo)致了依賴數(shù)據(jù)間相關(guān)性的算法在GPU上很難實(shí)現(xiàn)，如射線與物體的求交運(yùn)算。GPU中的控制器遠(yuǎn)少于CPU，其控制能力有限。

另外，GPU編程必須懂得計(jì)算機(jī)圖形學(xué)知識(shí)，以及圖形處理API，其門檻較高，學(xué)習(xí)周期長。早期的GPU編程使用匯編語言，開發(fā)難度高，效率低。不過，隨著Advanced Shader Language的興起，GPU編程已經(jīng)容易多了。

可編程GPU的應(yīng)用非常廣泛。尤其是在科學(xué)可視化計(jì)算上，GPU的優(yōu)勢極大。由于人體CT、地質(zhì)勘探、氣象數(shù)據(jù)、流體力學(xué)等科學(xué)可視化計(jì)算處理的數(shù)據(jù)量極大，基于CPU的計(jì)算無法滿足實(shí)時(shí)性要求，在GPU上進(jìn)行計(jì)算則效率很高。

很多CPU上非常耗時(shí)的算法都能移植到GPU上。目前，基于GPU的科學(xué)可視化研究已成為主流。

可編程GPU的通用算法前景非常好。基于GPU進(jìn)行通用計(jì)算的研究目前很熱，被稱為GPGPU（General-purpose Computing on GraphicsProcedding Units，也被稱為GPGP或GP2），很多數(shù)值計(jì)算等通用算法都在GPU上實(shí)現(xiàn)了，且表現(xiàn)不俗。

目前，線性代數(shù)、物理仿真和光線跟蹤算法都已經(jīng)成功地移植到了GPU上。這一切都是因?yàn)樵?003年后，GPU正式進(jìn)入了可編程階段。GPU的并行處理能力強(qiáng)于CPU，因此用戶可以在同一時(shí)間內(nèi)讓GPU并行處理很多頂點(diǎn)數(shù)據(jù)。盡管GPU有很強(qiáng)的并行能力，但GPU無法取代CPU，這是因?yàn)镚PU無法實(shí)現(xiàn)CPU強(qiáng)大的邏輯運(yùn)算能力。

2004年，英偉達(dá)的GeFroce 6800Ultra讓它奪回了GPU老大的地位（見圖25-4）。ATI的X800在性能上不屬于GeFroce 6800ultra，但是不支持最新的DX。而GeFroce 6800Ultra完整支持9.0c，X800只支持9.0b。這一次，ATI又?jǐn)∠玛噥怼?/p>

▲圖25-4 英偉達(dá)的GeFroce 6800Ultra

GeForce 6800Ultra作為面向高端市場的顯卡，渲染管線增加到16條，采用GDDR3顯存頻率達(dá)到1.1GHz，內(nèi)存帶寬達(dá)到35.2GB/s，性能相對(duì)上代GPU有了巨大的提升。

2004年，ATI在中低端市場中創(chuàng)造了一個(gè)神話：Radeon9550。這款GPU是ATI史上最成功的產(chǎn)品，售價(jià)為500美元，它的Radeon 9550在性能上并不輸于Radeon 9600。通過修改BIOS，它能直接具有Radeon 9600的性能，通過修改驅(qū)動(dòng)能使其成為專業(yè)GPU。

此時(shí)，英偉達(dá)在低端市場中只有FX5200，正是英偉達(dá)在低端市場中的不作為成就了Radeon9550（見圖25-5）。

▲圖25-5 ATI的Radeon9550

2005年，英偉達(dá)發(fā)布了第二代9.0c顯卡，Geforce 7800GTX，相對(duì)于6800Ultra其性能提高了40%。ATI因?yàn)橹瞥痰脑颍诘谒募径炔磐瞥隽艘訰520為核的Radeon X1800，其在性能上稍勝7800GTX。這一年，GPU市場稍顯平淡。

2006年，英偉達(dá)在把顯存翻倍的同時(shí)，把7800GTX的核心頻率也拉高了25%，帶來了20%以上的性能提升，×1800的優(yōu)勢瞬間消失。一代經(jīng)典R580直追而上，×1900則將7800GTX 512MB擊敗，即便面對(duì)后來的7900GTX，×1900也毫不遜色。

7950GX2則作為英偉達(dá)的第一款雙PCB雙芯卡出現(xiàn)了。緊隨其后的ATI使用了GDDR4顯存，推出了RadeonX1950 XTX，這款DX9時(shí)代最強(qiáng)的單芯GPU成就了ATI最后的輝煌。2006年7月，AMD收購了ATI。

2006年年底，真正的顯存變革到來了。DX10統(tǒng)一了渲染架構(gòu)，頂點(diǎn)著色引擎，此舉結(jié)束了像素渲染與引擎的分置。英偉達(dá)的8800GTX也因視窗Vista沒有發(fā)布，在沒有任何DX10游戲支持的情況下，實(shí)現(xiàn)了對(duì)1950XTX接近50%的性能領(lǐng)先。8800GTX贏得了當(dāng)時(shí)媒體的種種溢美之詞。

03 GPU的新發(fā)展

2007年，AMD在8800GTX上市半年后推出了以R600為內(nèi)核的2900XT，512比特的環(huán)形顯存總線讓它成了高功耗、高發(fā)熱的GPU，其性能卻沒有超過8800GTS。R600的失敗讓G80成了史上最長壽的內(nèi)核，它的后代G92持續(xù)了三代顯卡。

2007年，相對(duì)2900XT的失敗，AMD推出的以RV670為核的HD3870/3850則是一款具有優(yōu)秀性價(jià)比的核心，舍棄了環(huán)形總線，位寬降到了256比特。其極低的成本讓它具有了極高的殺價(jià)資本。AMD甚至制造了一款雙芯卡——HD3870X2。由于RV670的成功，AMD放棄了大核心的策略。

因?yàn)锳MD的乏力，所以英偉達(dá)減慢了升級(jí)速度。2008年7月，英偉達(dá)發(fā)布了以G92為核心的9800GTX，它相對(duì)于G80沒有實(shí)質(zhì)性的提升，這給了AMD機(jī)會(huì)。同年，以800SP為核的RV770成了AMD的撒手锏。HD4850迫使9800GTX一夜之間降價(jià)千元。

這一年AMD的HD4870勝過了英偉達(dá)的全新GPU：GTX260，其高端的GTX280也被AMD的4870X2擊敗。英偉達(dá)不得不臨時(shí)升級(jí)GTX260并推出了GTX260+，這才挽回一點(diǎn)市場，9800GTX升級(jí)為9800GTX+之后又以GTS250的身份繼續(xù)服役。G92核心極為長壽。

盡管主流市場被AMD擊敗，但GTX280和GTX295保住了英偉達(dá)GPU性能之王的地位。

GeForce GTX 280，采用65納米工藝制程，擁有240個(gè)流處理器，支持雙精度浮點(diǎn)運(yùn)算，內(nèi)存帶寬高達(dá)142GB/s，它強(qiáng)大的規(guī)格在高端市場中穩(wěn)住了英偉達(dá)的地位。

2009年9月，AMD發(fā)布了支持Direct×11的Radeon HD 5800系列GPU，Radeon HD 5800系列帶著全新的對(duì)Direct×11的支持和過硬的規(guī)格沖擊著GeForce GTX 200系列的地位。

2010年，英偉達(dá)發(fā)布了它的全新的GPU構(gòu)架，但它犯了與FX5800同樣的錯(cuò)誤。以Fermi構(gòu)架為核的GTX480以其巨大的功耗和發(fā)熱量聞名于世，據(jù)說發(fā)生過有人用480來煮雞蛋的事情，可見480有多熱。

相比之下，HD5870則優(yōu)秀得太多了。它的雙芯版本HD5970坐穩(wěn)了長達(dá)一年以上的GPU性能之王的寶座。Fermi在升級(jí)最新制程之后，改善了發(fā)熱量高的問題，也把流處理器發(fā)展到了512個(gè)。同年，英偉達(dá)在這一年收獲了新外號(hào)：核彈。因?yàn)槟趁襟w在評(píng)測GTX580時(shí)GPU爆炸了。

2011年，英偉達(dá)重組了Fermi核心，推出了GeForce GTX 580。上一代GTX 480因?yàn)榱计仿实蜎]有采用完整的Fermi核心，原設(shè)計(jì)中的512個(gè)流處理器因此被削減。

在以GF110為核心的GeForce GTX 580中，流處理器是完整的512個(gè)，GF110在紋理采樣與算法上做了進(jìn)一步優(yōu)化。相對(duì)GF100核心，GeForce GTX 580在工作頻率更高的情況下，功耗和溫度也達(dá)到了均衡，在性能上超越了AMD的Radeon 6970。

2011年，英偉達(dá)為了彌補(bǔ)中高端GPU的空缺，正式推出了GeForce GTX560 Ti，它采用的是全新的GF114架構(gòu)，GF114不在旗艦核心上進(jìn)行削減，而是優(yōu)化CUDA核心和SM單元，使其更貼合市場定位，這使它在中高端GPU市場中獲得了不錯(cuò)的反響。

2012年，在經(jīng)歷了Radeon HD 6970的低迷后，AMD重振旗鼓發(fā)布全新的基于CGN架構(gòu)的Radeon HD 7970 GPU，它采用了臺(tái)積電最新的28納米工藝制程，不再使用投影分頻模式，在增加了CUDA數(shù)量的同時(shí)，使同頻運(yùn)行的模式帶來的功耗相對(duì)比投影模式要低。

在AMD推出Radeon HD 7970后的三個(gè)月，英偉達(dá)在全新的Kepler架構(gòu)基礎(chǔ)上，推出了GeForce GTX 680 GPU。無論是游戲性能、功耗以及價(jià)格方面，它都要比Radeon HD 7970強(qiáng)大。

從GeForce GTX 680開始，GPU Boost動(dòng)態(tài)加速被引入了GPU，GPUBoost根據(jù)TDP（Thermal Design Power）范圍值提高核心頻率或者降至標(biāo)準(zhǔn)頻率，同時(shí)適用于超頻狀態(tài)。

在Kepler架構(gòu)上，英偉達(dá)推出了新的TXAA抗鋸齒，相比多重采樣抗鋸齒（MSAA），畫面更出色，效能也更高，同時(shí)為了解決在幀數(shù)過低時(shí)打開垂直同步造成的幀數(shù)暴降，英偉達(dá)在新的TXAA抗鋸齒中加入自適應(yīng)垂直同步（Apdative VSync）技術(shù)。

2013年，英偉達(dá)在第二代Kepler架構(gòu)的基礎(chǔ)上推出了GeForce GTXTitan和780Ti。

第一代Kepler架構(gòu)的GeForce GTX 680作為旗艦GPU在各方面表現(xiàn)得都不錯(cuò)。在此基礎(chǔ)上，英偉達(dá)推出了大核心GK110，并命名為GeForceGTX Titan，首次沒有采用數(shù)字編號(hào)的命名方式，Titan的意思是代表著最高性能的GeForce顯卡。

最早使用GK110架構(gòu)的GPU是英偉達(dá)的Tesla/K20/K20X。它們的單/雙精度的浮點(diǎn)性能在當(dāng)時(shí)達(dá)到了史上最佳。

GeForce GTX Titan的整體規(guī)格和英偉達(dá)的Tesla K20X相似，擁有2688CUDA核心，優(yōu)化了SMX單元，工作頻率更高，在當(dāng)時(shí)性能是單卡中最強(qiáng)的。在當(dāng)時(shí)的GPU市場上，GeForce GTX Titan的性能無與倫比，但其定價(jià)為7999元?jiǎng)t令很多消費(fèi)者望而卻步。

英偉達(dá)很快又推出了GK110完整核心架構(gòu)，它擁有核心全部15組SMX單元，同時(shí)核心與顯存頻率也有所提升，GK110核心改進(jìn)了功耗和溫度，以此為基礎(chǔ)的GeForce GTX 780Ti GPU使英偉達(dá)重新登上了GPU的王者之位。

2014～2015年，英偉達(dá)又推出了高效的Maxwell架構(gòu)及在此基礎(chǔ)上的GPU：GeForce GTX 980和GeForce GTX 970。

從Fermi到Kepler架構(gòu)，英偉達(dá)在追求性能極致的同時(shí)，努力降低GPU功耗。第一代Maxwell架構(gòu)是定位稍低的GM107核心，它改進(jìn)了SMX單元，提高了每瓦性能。

而第二代Maxwell架構(gòu)的核心是GM204，GM204在合理控制核心面積的同時(shí)，增加了SMX的數(shù)量，提高了效率。使用Maxwell架構(gòu)，即使使用28納米工藝制程，性能也能大幅度提升并降低了功耗。

英偉達(dá)推出GeForce GTX 980和GeForce GXT 970不僅是為了革新自己的核心架構(gòu)，也是為了在市場上繼續(xù)打壓AMD的R9 Radeon 290X/290GPU。

英偉達(dá)在領(lǐng)先了九個(gè)月的情況下，AMD推出了R9 Radeon390/390X GPU，在Hawaii構(gòu)架的基礎(chǔ)上降低了功耗，提高了頻率和顯存容量，同時(shí)經(jīng)過CGN通用架構(gòu)的驅(qū)動(dòng)不斷優(yōu)化，AMD終于挽回了一局。

在從GeForce 600系列到GeForce 900系列的GPU中，英偉達(dá)一直采用臺(tái)積電28納米制程工藝，2016年5月，英偉達(dá)推出了采用新一代16納米FinFET制程工藝的Pascal架構(gòu)，晶體管數(shù)量多達(dá)72億個(gè)，核心頻率大幅度提升，用戶輕松超頻就能突破2GHz。

Pascal架構(gòu)采用的是GP104核心，并非是GP100大核心，但還是帶來了GDDR5X顯存升級(jí)、異步運(yùn)算改進(jìn)、新的VR技術(shù)等方面的提升。

目前，英偉達(dá)采用Pascal架構(gòu)的GPU有GeForce GTX 1080（見圖25-6）、GeForce GTX 1070和GeForce GTX 1060，三款GPU代表旗艦、高端、中高端三個(gè)級(jí)別。

▲圖25-6 英偉達(dá)的GeForce GTX 1080

目前，AMD只有唯一的新款——采用了Polaris架構(gòu)的Radeon RX480，定位與GeForce GTX 1060相符，但是從各方面的表現(xiàn)來看，Radeon RX 480不如GeForce GTX 1060。

在GeForce系列前，英偉達(dá)只是在GPU廠商百花齊放的時(shí)代翻滾打拼，生存并逐步壯大，而今天風(fēng)靡全球的GeForce系列GPU則把它推到了GPU的王者之位。

英偉達(dá)的GeForce產(chǎn)品線從誕生至今，已經(jīng)走過了17個(gè)年頭。它為我們提供了很多經(jīng)典產(chǎn)品。三維游戲因其卓越的性能給用戶帶來了超級(jí)震撼的使用體驗(yàn)。

04 未來的GPU發(fā)展方向

今天，我們面臨的芯片制程工藝已經(jīng)達(dá)到了7納米。半導(dǎo)體芯片的制程工藝眼看就要達(dá)到物理極限，而我們面臨的需要處理的信息和應(yīng)用卻不減反增。大數(shù)據(jù)和人工智能的時(shí)代已經(jīng)來臨。

為了應(yīng)對(duì)這些新局面，人們開始從傳統(tǒng)的以CPU為主GPU為輔的英特爾處理器構(gòu)架轉(zhuǎn)變?yōu)橐訥PU為主CPU為輔的新構(gòu)架，盡管當(dāng)前的計(jì)算系統(tǒng)仍是“CPU+協(xié)處理器”的混合架構(gòu)。

隨著機(jī)器學(xué)習(xí)算法等AI在各應(yīng)用領(lǐng)域中表現(xiàn)出優(yōu)越性能后，對(duì)機(jī)器學(xué)習(xí)算法硬件上的支持就成了處理器設(shè)計(jì)的重要考量。

目前，很多機(jī)器學(xué)習(xí)算法都在GPU上運(yùn)行，但GPU仍是一種通用芯片，其效能與功耗還沒有在機(jī)器學(xué)習(xí)算法上優(yōu)化。這時(shí)，谷歌出手了，它要做一款專用于機(jī)器學(xué)習(xí)算法的芯片，于是便有了TPU（Tensor Processing Unit）。

簡單地說，CPU是完全通用的處理架構(gòu)；GPU是通用的圖像處理構(gòu)架，是準(zhǔn)通用處理架構(gòu)；而TPU則有明確的目標(biāo)和處理邏輯，它徹底犧牲了通用性，得到了特定應(yīng)用的極端效率。

谷歌在它的數(shù)據(jù)中心使用了幾年的TPU（見圖25-7），性能指標(biāo)非常好，將硬件性能提前了7年，為摩爾定律的3倍。TPU的高性能來源于三個(gè)方面：控制發(fā)熱量、容忍低精度運(yùn)算、數(shù)據(jù)本地化。

▲圖25-7 在谷歌數(shù)據(jù)中心應(yīng)用的TPU

▲圖25-8 TPU的構(gòu)架

從CPU到GPU再到TPU，處理器經(jīng)過了從通用構(gòu)架到準(zhǔn)通用架構(gòu)再到專用構(gòu)架的道路。未來的處理器將是為了各種不同應(yīng)用專門設(shè)計(jì)的，誰都不知道GPU會(huì)在AI和比特幣上有如此之大的應(yīng)用，也沒有人知道GPU的前景會(huì)如此好。

那么TPU呢？目前我們只看到它的早期應(yīng)用就有了如此光輝的前景，我們無法預(yù)知TPU未來的應(yīng)用，更無法預(yù)知未來的處理器會(huì)是什么樣子的。

關(guān)于作者：錢綱，現(xiàn)就職于美國德州儀器公司，從事半導(dǎo)體工藝及半導(dǎo)體器件的開發(fā)與研究工作。科學(xué)網(wǎng)人氣作者，其作品在線獲得超過千萬人次的瀏覽量。錢綱的作品以涉及歷史、科技的雜文、隨筆為主。主要作品有美國歷史及人物紀(jì)事《美國往事》，硅谷歷史《硅谷簡史》等。

本文摘編自《芯片改變世界》，經(jīng)出版方授權(quán)發(fā)布。