我們在硬件方面說完了,再說說軟件方面,有可能是系統(tǒng)不穩(wěn)定造成的,譬如:誤刪系統(tǒng)文件、電腦有木馬病毒,這時候大家應(yīng)該首先對電腦進行全盤的病毒掃描查殺,倘若非病毒所致,就得看下顯卡驅(qū)動是否安裝正確,大家要記住顯卡驅(qū)動并非越新越好,只有合適才是好的,大家可以到顯卡官網(wǎng)尋找對應(yīng)驅(qū)動安裝,這樣更有利于提高顯卡與驅(qū)動的兼容性。
我發(fā)現(xiàn)身邊就有很多朋友就是看到顯卡驅(qū)動需要更新了,馬上就進行更新操作,這不一定是對的做法,我們要看該顯卡驅(qū)動是否適合自己才行。特別是英偉達比較好的顯卡,不知道大家有沒有聽過流傳的一句話,N卡負優(yōu)化,其實就是說老顯卡更新驅(qū)動后性能不升反降,因此顯卡驅(qū)動適合才是滿意的。
上海三米奇信息科技有限公司成立于2023年3月,總部設(shè)在上海。在此之前公司是人人租機(廣州研趣信息)上海城市招商運營總代理,擁有多年的市場運營及開發(fā)經(jīng)驗。截止至今,公司已在上海、深圳、蘇州等多個城市成立了分公司,廣安,蘭州等城市開通了分平臺。擁有三米奇,徐碩,修租俠,正厡等品牌商標(biāo),擁有“修租客”APP及微信小程序軟件著作權(quán)等。三米奇旗下修租客是國內(nèi)一站式到家服務(wù)平臺的新起之秀,其服務(wù)覆蓋生活的各個領(lǐng)域,主要提供家電維修、電腦網(wǎng)絡(luò)維修、設(shè)備租賃回收、家政保潔,管道疏通等多種生活服務(wù)。
為2023年的第一張顯卡,RTX 4070 Ti如期和我們見面了,今天為大家?guī)砑技蜧eForce RTX 4070 Ti GAMING OC 12G這張顯卡的首測。
作為RTX 40系顯卡的第一張“Ti”產(chǎn)品,它的出現(xiàn)其實更像是意外,通過本次RTX 4070 Ti的各項參數(shù)來看,對比之前宣布的RTX 4080 12G,發(fā)現(xiàn)CUDA數(shù)量、核心頻率,顯存等方面的數(shù)據(jù)都與之相同。
不過有一點不同就是降價了!原本在發(fā)布會中RTX 4080 12GB的價格為7199元,現(xiàn)在更名后的RTX 4070 Ti官方建議價格為6499元,直降700。
其實作為一款中高端型號顯卡,如果參考RTX 30系的話,6499元這個價格還是太貴了,畢竟當(dāng)年的RTX 3080作為次旗艦僅僅5499元。不過在RTX 4080售價9499元的襯托下,似乎也還是挺便宜的。下面我們來看看這張技嘉GeForce RTX 4070 Ti GAMING OC 12G顯卡的性能表現(xiàn)如何。
1技嘉GeForce RTX 4070 Ti GAMING OC 12G概覽
技嘉RTX 4070 Ti GAMING OC在RTX 40系顯卡中的改動也比較大,整體以黑色為主。不過作為技嘉旗下的平價系列顯卡,更以實用性為主。
配件方面,由于技嘉RTX 4070 Ti GAMING OC采用的是尾部與機箱固定稱重,所以沒有傳統(tǒng)意義上的顯卡支架,并且還附贈了一包螺絲用以固定。
另外雖然RTX 4070 Ti的功耗有所降低,不過RTX 40系全員采用了16pin供電接口,所以還附贈了一個雙8pin的轉(zhuǎn)接線。
技嘉RTX 4070 Ti GAMING OC的整體尺寸為336×140×58mm,作為一張中高端性能顯卡,并且是RTX 40系,尺寸上算得上比較小巧了。
散熱方面,技嘉RTX 4070 Ti GAMING OC采用三個100mm直徑9葉風(fēng)扇,依然是正逆轉(zhuǎn)設(shè)計,搭載智能啟停技術(shù)。內(nèi)部散熱采用7根復(fù)合銅熱管散熱,對于這張RTX 4070 Ti來說完全夠用了。
值得一提的是,技嘉RTX 4070 Ti GAMING OC在風(fēng)扇上采用了石墨烯納米潤滑劑,根據(jù)官方說法,它可以使風(fēng)機壽命延長2.1倍,接近雙滾珠軸承壽命,且更安靜。
這次技嘉RTX 4070 Ti GAMING OC的背板設(shè)計也相當(dāng)簡潔,整體為裸色金屬,加上一些線條點綴,形成立體視覺效果。
不過最讓人震驚的還是通過鏤空部位目測出來的PCB尺寸,幾乎只有整卡的一半大小,其余大部分位置均為散熱系統(tǒng)。
視頻輸出接口上,依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設(shè)計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
本次RTX 4070 Ti采用單16pin的輔助供電,推薦電源750W及以上。不過從本次包裝內(nèi)附送的雙8pin轉(zhuǎn)接線也能看出,之前的電源完全可以適配,但無奈NVIDIA這次統(tǒng)一接口,所以只能中間轉(zhuǎn)接這一下。
雖然功率沒有那么大,但有條件的還是建議大家選擇ATX 3.0電源,它自帶12VHPWR的16pin供電接口,最高可支持600W供電。
需要注意的是,目前適用于RTX 30系列的12pin接口和電源轉(zhuǎn)接器與RTX 40系列顯卡不兼容。
在供電接口上方的則是BIOS切換撥桿,左側(cè)為“BIOS OC”也就是性能模式,而右側(cè)為“SILENT”安靜模式,玩家拿到手后默認為性能模式。
2技嘉智能管家(GCC)軟件及燈光
本次技嘉的控制軟件再次進行了更新,相較上一版整體的UI設(shè)計更漂亮,操作方法也更簡明扼要。
顯卡可調(diào)節(jié)的部分均在第二欄,包括風(fēng)扇、超頻以及燈光調(diào)節(jié)。風(fēng)扇部分玩家可以選擇默認的自動模式,或是根據(jù)自身超頻情況來設(shè)置自定義模式,并且支持保存或?qū)氘?dāng)前配置文件。
在超頻界面中同樣比較簡潔,簡化了不少操作,玩家主要調(diào)節(jié)的就是加速頻率一項,不過如果要超頻的話,對應(yīng)的也需要加壓和加功耗。關(guān)于超頻其實沒有太多技巧,就是一點一點試,這也正是超頻的樂趣。在界面的最右側(cè)為顯卡當(dāng)前的各項參數(shù)。
RGB燈光調(diào)節(jié)的界面很貼心的為大家設(shè)置了一個比較大的大雕logo,方便取色的時候直接觀看效果。
技嘉RTX 4070 Ti GAMING OC的背光依舊是在風(fēng)扇內(nèi)圈,不過相比上一代直接將燈珠裝在風(fēng)扇上,風(fēng)扇內(nèi)圈發(fā)光的方式視覺效果更好,不會出現(xiàn)那么多視覺殘影。
3NVIDIA GeForce RTX 4070 Ti 架構(gòu)淺析
本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構(gòu)打造,TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著色器數(shù)據(jù)吞吐量。
本次發(fā)布的GeForce RTX 4070 Ti達到40-TFLOPS,而不久前發(fā)布的RTX 4090則為83-TFLOPs。
完整AD102核心
完整AD104核心
RTX 4070 Ti所使用的AD104
本次GeForce RTX 4070 Ti使用了AD104芯片,標(biāo)準(zhǔn)的5組GPC,NVENC單元削減了3個。
我們再來詳細的看看每個SM單元,其中與NVIDIA Ampere架構(gòu)有著同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當(dāng)然,每個SM單元內(nèi)部的Tensor Core升級為第四代。
不過變化最為顯著的,則是第三代光追核心,我們結(jié)合兩代架構(gòu)來看。在第二代光追核心中,包含負責(zé)邊界交叉測試的Box Intersection Engine引擎,和負責(zé)三角形交叉測試的Triangle Intersection Engine引擎。
而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬件單元可以極大地提升光追性能(具體原理后文詳細介紹)。
至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現(xiàn)5組TPC組成一個GPC單元的情況)。
而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區(qū)(每組包含8個ROP單元)。
由于整體架構(gòu)分析篇幅較長,關(guān)于NVIDIA Ada架構(gòu)的其他新特性就不在這里介紹了,將在文章末尾以附錄的形式展開說明,有興趣的用戶可翻至最后。
4測試平臺簡介
首先介紹一下測試平臺,為了保障技嘉RTX 4070 Ti GAMING OC這張顯卡的性能發(fā)揮,我們的平臺也再次進行了全面更新。
本次測試平臺的處理器采用了Intel最新的13代i9-13900K,性能絕對強悍,并且電源和顯示器上進行了著重升級。
首先看一下GPU-Z的參數(shù),RTX 4070 Ti采用全新的AD104核心,擁有7680個CUDA,這與之前曝出的RTX 4080 12GB的參數(shù)相同。本次測試的技嘉RTX 4070 Ti GAMING OC的Boost頻率為2640MHz,對比公版的2610MHz有一定提升。
RTX 4070 Ti采用12GB GDDR6X Micron顯存,位寬為192bit,顯存帶寬達到了504.2 GB/s,光柵單元和紋理單元為80和240。
5理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應(yīng)顯卡在1080P、2K、4K的理論性能,取顯卡分數(shù)實際測試結(jié)果如下:
這里著重說明一下,i9-13900K在測試3DMARK FS成績中存在BUG,GPU占用不足,導(dǎo)致分數(shù)較低;這里的FS成績?yōu)閕9-13900K處理器關(guān)閉小核心測試所得。
在針對顯卡DX11性能的3DMARKFS套裝測試中,技嘉RTX 4070 Ti GAMING OC主要對比上一代旗艦RTX 3090 Ti,其中FS提升了5%;FSE提升了1%;FSU差距在5%,綜合來看相比RTX 3090 Ti的性能提升約為3%。
而對比剛剛發(fā)布的RTX 4080,綜合成績相差22%左右。
而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中,技嘉RTX 4070 Ti GAMING OC相較RTX 3090 Ti的成績分別為:TS提升3%;TSE成績差距在4%左右。
PortRoyal是3DMARK中專門針對光追性能的測試項,技嘉RTX 4070 Ti GAMING OC相較RTX 3090 Ti的分數(shù)差距約為5%,而對比RTX 4080的成績相差約24%。
綜合來看,技嘉RTX 4070 Ti GAMING OC在1080p以及2K分辨率下相比RTX 3090 Ti的優(yōu)勢比較明顯,而4K分辨率下還是有差距的。
畢竟兩款顯卡的顯存帶寬相差一倍,盡管RTX 4070 Ti的L2緩存達到了驚人的48MB,而RTX 3090 Ti只有6MB,但高位寬高帶寬整體的優(yōu)勢依然明顯。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準(zhǔn)測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。
這項測試結(jié)合了實時光線追蹤和傳統(tǒng)渲染技術(shù)來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網(wǎng)格著色器、體積照明、粒子和后處理效果。并且有意思的是,Speed Way測試支持自由探索場景,可查看光照及攝像機設(shè)置的改變?nèi)绾斡绊懸曈X效果。
在該項測試中,我們對比了剛剛發(fā)布的RTX 4080顯卡,從1080p分辨率到8K的差距依次為:27%/27%/27%/56%,目前常見的三種分辨率差距幾乎相同,但8K這種次時代的超清分辨率,絕對是用顯存來說話了。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關(guān)性能測試。依然是對比之前發(fā)布的RTX 4080,除了8K分辨率下關(guān)閉DLSS 3的成績,兩款顯卡的差距一直保持在20%左右。
6常規(guī)游戲 性能測試
由于本次RTX 40系加入了DLSS 3新技術(shù),所以后面會進行單獨測試,這里依然選擇主流的幾款3A大作進行游戲性能對比。
在《地平線5》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分別為:1080p提升39%;2K提升36%;4K提升26%,綜合提升34%。
在《刺客信條:英靈殿》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分別為:1080p提升41%;2K提升25%;4K提升4%,綜合提升23%。
在《無主之地3》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分別為:1080p提升10%;2K相差3%;4K相差13%。
《光明記憶:無限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線追蹤技術(shù)更多,測試條件為“RTX最高/DLSS質(zhì)量”。所以測試幀數(shù)相對較低,但實際游戲配置相當(dāng)親民。
在另外一款國產(chǎn)游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質(zhì)量”下進行。
在常規(guī)游戲測試中,不難發(fā)現(xiàn)在1080p分辨率下RTX 4070 Ti能夠有很大優(yōu)勢,但憑借24GB大顯存以及1000 GB/s的帶寬,在高分辨率下RTX 3090 Ti的優(yōu)勢非常明顯。
所以綜合來說,RTX 4070 Ti其實與RTX 3090 Ti算是實力相當(dāng),只不過兩款顯卡的“戰(zhàn)場”不同,但如果在用戶普遍使用的1080p和2K分辨率來說,RTX 4070 Ti的優(yōu)勢更大,更不要說它還能夠開啟DLSS 3這一神技。
7DLSS 3性能測試
目前已有超過 35 款游戲和應(yīng)用宣布即將支持 DLSS 3,其中 15 款游戲已經(jīng)上市。目前已有超過 250 款游戲和應(yīng)用支持 DLSS,并且還在逐月增加。
其中11月15日已有13款加入DLSS 3的游戲,包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠:重制版》、《超級人類》。最新發(fā)布的則有《WRC Generations》、《極品飛車:不羈》、《戰(zhàn)錘40K:暗潮》
下面就讓我們來實際測試,擁有全新的DLSS 3的游戲,能達到何種幀率。
本次DLSS 3的測試圖表比較繁瑣,并且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那么這個1% Low FPS是什么意思。
首先,游戲benchmark通常測試的FPS即為,一段時間內(nèi)的游戲平均幀。而1% Low FPS則是將一段時間內(nèi)的幀數(shù)從大到小排列,取最小的1%出來,再對這1%的數(shù)求平均值。
其實簡單來說,這兩個數(shù)值都不能代表我們在游玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的里面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標(biāo)軸左側(cè)的為延遲(越低越好),坐標(biāo)軸右側(cè)的均為幀數(shù)(越高越好),并且由于牽扯到正負坐標(biāo),所以兩側(cè)的值有可能會不同。
本次RTX 4070 Ti定位于2K分辨率下的電競級幀率,在《賽博朋克2077》中的數(shù)據(jù)反映比較真實穩(wěn)定,可以看到在DLSS關(guān)的光線追蹤最高的情況下,即便技嘉RTX 4070 Ti GAMING OC顯卡也只有44幀,并且延遲達到了91.5毫秒。而在開啟DLSS 3后,幀數(shù)為118。
對比RTX 3090 Ti來看,雖然在關(guān)閉和DLSS 2模式下的分數(shù)幾乎相同,但如果RTX 4070 Ti開啟DLSS 3后,提升幅度達到了55%左右,非常大。
《暗影火炬城》在開啟光追后對于性能要求明顯提高。在兩款顯卡的對比中,在不開啟DLSS 3的情況下RTX 4070 Ti相較RTX 3090 Ti也幾乎都有著10幀的領(lǐng)先優(yōu)勢。而開啟DLSS 3后,提升幅度為18%左右。
在Unity的測試軟件中,將會自動播放一段即時演算視頻,我們通過FrameView記錄全程。不過由于程序僅提供關(guān)閉和開啟DLSS 3的操作,所以我們?nèi)山M分數(shù)。
可以看到在關(guān)閉DLSS 3后,即使在2K分辨率下平均FPS也有37幀,延遲也高達120.4ms。而開啟DLSS 3后提升非常大,性能提升達到了127%,演示效果肉眼可見的流暢。
在UE5提供的測試游戲中,方便的給出了DLSS的快捷測試,這里分為DLSS關(guān)(超分辨率關(guān)+幀生成關(guān)+Reflex關(guān));DLSS 2(超分辨率性能+幀生成關(guān)+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。
這組對比中,由于場景受限,我們選擇固定鏡頭測試,所以三組數(shù)據(jù)1% Low幀數(shù)相對較高。
當(dāng)然針對畫質(zhì)方面,我們也進行了測試,在上圖中我們截取《賽博朋克2077》中的一角,可以看到在兩種DLSS模式下,相較原畫質(zhì)幾乎沒有明顯變化,只在柵欄處的光影效果有所不同,但對于如此大幅度的幀數(shù)提升,這點瑕疵幾乎可以忽略不計。
8生產(chǎn)力工具測試
雖然RTX 4070 Ti為徹徹底底的游戲卡,不過我們也對渲染及編碼等內(nèi)容進行了部分軟件的測試。
Blender
Blender是一款專業(yè)的三維渲染軟件,本次推出了固定的benchmark跑分軟件,省去了安裝軟件下載素材的麻煩。這款跑分軟件只需下載好啟動程序,軟件會自動渲染測試monster/junkshop/classroom共三個場景。
上圖為RTX 4080顯卡得分,分別為4850/2239/2333分,平均3141分;下圖為技嘉RTX 4070 Ti GAMING OC顯卡得分,分別為3640/1660/1837分,平均2379分。兩張顯卡的性能差距在32%左右。
DaVinci_Resolve_18.0.2
下面我們通過達芬奇來對NVIDIA AV1編碼進行實測,對比輸出為H.264編碼。輸出尺寸為4K UHD,質(zhì)量選擇最好,來看看兩組成品有何區(qū)別。
本次的RTX 4070 Ti測試中,我們重新對該素材進行編碼渲染,不過最終的渲染時間同樣是1分50秒左右,與RTX 4080幾乎相同。
由于我們沒有固定碼率,而選擇了相同的畫面質(zhì)量,可以看到在同質(zhì)量下,AV1所生成的視頻碼率更低,幾乎為H.264的三分之一。
而低碼率也就意味著視頻體積越小,該段視頻采用AV1編碼的大小為H.264編碼的四分之一,對于硬盤的空間節(jié)省非常明顯,下面再來看看兩段視頻的畫質(zhì)表現(xiàn)如何。
左AV1 右H264(點擊查看大圖)
我們選擇NVIDIA的ICAT軟件進行分屏對比,首先在較低的縮放倍率來看,兩段視頻在色彩和清晰度上完全相同,而在放大500%后,可以看到噪點情況。使用AV1編碼像素過度更平滑,幾乎沒有很明顯的顆粒感,從而使場景看起來更干凈。
9溫度及功耗測試
功耗測試中,我們選擇FurMark軟件進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
在半小時的拷機中,技嘉RTX 4070 Ti GAMING OC顯卡滿載狀態(tài)下峰值溫度控制在60℃左右,熱點溫度也僅有70℃左右。可以看到整卡功耗為283W左右,如果TDP達到100%則為285W左右。
值得一提的是,本次我們在拷機測試中,雖然最大板載功耗為285W左右,TDP達到了99%。但在實際游戲測試中,大部分3A游戲只在220W左右,甚至部分不耗費性能的游戲在200W左右。
這里我們選擇了最耗費性能的《賽博朋克2077》,在4K分辨率下的光追超級預(yù)設(shè),記錄了benchmark整個過程的功耗情況。表格中左側(cè)為功耗,下方則為當(dāng)前幀。
可以看到在功耗峰值點,這張RTX 4070 Ti只有245W左右,而在整個benchmark測試中的平均功耗為238W。所以在實際的使用過程中,由于不同游戲負載不同,GPU的實際功耗是動態(tài)變化的,類似于FPS隨時間的變化,RTX 40系列很難觸及功耗墻。
10對標(biāo)RTX 3090 Ti
本次發(fā)布的RTX 4070 Ti相比RTX 4080確實存在著不小的差距,如果像此前都叫RTX 4080,只在顯存名稱區(qū)分,對于大部分用戶來說確實有點混淆。
而這張RTX 4070 Ti的發(fā)布才終于和上一代的RTX 30系顯卡有所交集,之前發(fā)布的4080以及4090都屬于吊打上一代產(chǎn)品。
這張卡的亮點部分則是對比RTX 3090 Ti的上一代旗艦,從整個測試來看,在1080p以及2K分辨率,RTX 3070 Ti都有著較大的優(yōu)勢,但在4K分辨率下會被RTX 3090 Ti扳回一城。
但RTX 3090 Ti本身的定位就是生產(chǎn)力工具,24GB的大顯存高帶寬都是助力更好的內(nèi)容創(chuàng)作。所以對于游戲玩家來說,即便追求極致性能買了RTX 3090 Ti,顯存算是浪費了一大半。
RTX 4070 Ti則是定位中高端游戲卡,而2K@144Hz已經(jīng)算是目前比較高級的顯示器規(guī)格,這張卡完全可以駕馭,況且加上DLSS 3這樣的神技,在4K分辨率下上百幀也是不虛的。
對于廣大3A玩家來說,這張RTX 4070 Ti絕對是性能之選,甚至是性價比之選。畢竟9499元的RTX 4080雖然在性能上強過RTX 4070 Ti不少,但3000元的差價,足以讓任何人再三斟酌了。
并且對比RTX 3090 Ti來說,雖然輸在4K分辨率下,并不屬于全面超越。但價格優(yōu)勢同樣明顯,一款6499元的RTX 3090 Ti你不動心嗎?
最后,本次RTX 4070 Ti顯卡的售賣時間比性能解禁時間晚一天,為1月5日的22:00點,有興趣的用戶不妨關(guān)注起來。
11附錄1-NVIDIA Ada Lovelace架構(gòu)解析
Shader Execution Reordering (SER)著色器執(zhí)行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態(tài)重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執(zhí)行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數(shù)百萬條光線照射在不同材質(zhì)上,而我們知道不同材質(zhì)的反射率,以及反射效果也是不同的。所以這樣就為著色器創(chuàng)建了大量的、發(fā)散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態(tài)重組為更高效的工作負載。根據(jù)NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個簡單的例子,當(dāng)光線第一次從發(fā)射端到碰撞端是非常有規(guī)律的射線,而碰撞到物體后的二次光追,則會出現(xiàn)大量發(fā)散的、無規(guī)律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發(fā)揮出著色器的最大性能。
不過好在這么實用的功能并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發(fā)商集成在游戲中。另外由于它是一個通用的邏輯,后續(xù)也有可能直接集成在Windows的API中,這樣游戲開發(fā)者就無需特意引用,直接調(diào)用系統(tǒng)API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據(jù)NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構(gòu)的最終形態(tài)。
Opacity Micro-Map Engines
在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優(yōu)化光線追蹤渲染,可大幅減輕著色器的工作負擔(dān)。
比如樹葉之類的復(fù)雜物體,不同的光線都會影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對象,也就能夠更快更精準(zhǔn)的渲染出來,從而極大減輕著色器的工作負擔(dān)。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網(wǎng)格置換引擎,它構(gòu)建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復(fù)雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數(shù)非常多的復(fù)雜圖形做簡化,創(chuàng)造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數(shù)據(jù)我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經(jīng)過簡化后,只有15萬左右的微網(wǎng)格,BVH的構(gòu)建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復(fù)雜的模型往往優(yōu)化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經(jīng)網(wǎng)絡(luò)渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎(chǔ)上,添加了光學(xué)多幀生成技術(shù),以生成全新的幀,而不像原來只能生成像素。
DLSS 3結(jié)合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術(shù),能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠?qū)侍岣?倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術(shù),我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個“神經(jīng)網(wǎng)絡(luò)渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術(shù),DLSS絕對稱得上“巨人的肩膀”。當(dāng)然,連年的創(chuàng)新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎(chǔ)上,還可以計算兩個連續(xù)幀內(nèi)的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準(zhǔn)的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區(qū)域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會中說到,DLSS 3能夠突破CPU的限制來提升幀數(shù)。
雙AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統(tǒng)的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質(zhì)將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規(guī)定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發(fā)布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當(dāng)然,直播只是我們更容易見到的AV1優(yōu)勢,在視頻工作的所有環(huán)節(jié),AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經(jīng)為廣大用戶鋪好了一條完整的生態(tài)鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調(diào)的雙AV1編碼。顧名思義,即部分顯卡內(nèi)搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
首先,根據(jù)官方宣傳的,在4K H.265的導(dǎo)出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導(dǎo)出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導(dǎo)出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關(guān)于編碼部分,可能大部分用戶的感受不深,但當(dāng)有一天,你想錄屏的時候,卻發(fā)現(xiàn)顯卡不支持,才會發(fā)覺它的重要性……
隨著圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經(jīng)成為不可或缺的幫手。雖然論質(zhì)量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質(zhì),也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經(jīng)達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質(zhì)量和時間也在不斷地被挑戰(zhàn)和刷新。
12附錄2-Ada Lovelace是誰?
Ada Lovelace(1815-1852)是英國數(shù)學(xué)家、計算機程序創(chuàng)始人,建立了循環(huán)和子程序概念,被稱為世界上第一位程序員。
Ada從小對數(shù)學(xué)有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數(shù)字女巫”。在19歲時Ada嫁給了自己曾經(jīng)的科學(xué)家庭教師,婚后的她對數(shù)學(xué)熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數(shù)求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程序員。
而以她名字命名的語言——ada語言,已經(jīng)成為了美國軍方開發(fā)戰(zhàn)斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經(jīng)歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。
T之家 7 月 22 日消息,摩爾線程今日發(fā)布版本號為 v260.70.2 的圖形顯卡驅(qū)動程序。
此次更新支持游戲《絕區(qū)零》,并修復(fù)了在游戲啟動大廳和游戲內(nèi)場景概率性渲染缺失及其他的一些問題。
與此同時,新驅(qū)動著重提升了包括《樂高積木傳說》《求生島:不老泉傳說》以及《巴別塔圣歌》在內(nèi)的多款熱門游戲的性能表現(xiàn)。
此外,新驅(qū)動還特別對部分 DirectX 11 游戲性能進行了優(yōu)化,例如《遠征:泥濘奔馳游戲》平均幀率提升超過 150%,《清零計劃 2:天啟派對》平均幀率提升約 150%。
顯卡用戶可通過訪問摩爾線程官網(wǎng)下載最新版本 v260.70.2 的驅(qū)動程序,已安裝 PES 控制中心的用戶,可通過“檢查更新”功能,下載全新發(fā)布的 Windows 驅(qū)動程序。
IT之家附下載地址: