您的位置：首頁 > 新聞 > 高新技術 > 新聞詳情

鋪平未來之路：AMD顯卡架構轉換深度解密

時間：2010-12-16 13:31:09

來源：驅動之家
作者：batyeah
編輯：ChunTian

這種變化的好處有很多。并行計算方面最明顯的就是此前用于特殊單元的內(nèi)核面積可以節(jié)省出來安置更多SIMD引擎，比如Cypress Radeon HD 5800 20個，Cayman Radeon HD 6900就增加到了24個，平均下來后者的著色器區(qū)塊效率要高10％。與此同時，紋理單元的數(shù)量、可以并行執(zhí)行的線程數(shù)量、每個時鐘周期可以執(zhí)行的64位浮點操作數(shù)量都隨之發(fā)生了變化，特別是后者使得AMD GPU的64位雙精度運算能力達到了32位單精度浮點的四分之一(以往是五分之一)——事實上單個流處理器單元的計算能力并沒有變化，只不過布局的重新設計使得彼此工作的效率更高了。

SP變化的同時，寄存器文件卻沒動，于是每個SPU的寄存器所承受的壓力更小了，因為現(xiàn)在只有四個SP爭奪寄存器空間。調度也更簡單了，因為需要調度的SP更少，而且彼此完全相同，不需要考慮w/x/y/z單元和t單元的差別。

游戲方面的改善也類似。已經(jīng)習慣了VLIW5架構的游戲有了更多SIMD引擎可以使用，意味著紋理處理能力更強，計算/紋理的比例也因此降低，有利于那些側重于紋理和過濾而不是計算的游戲。

當然，任何架構上的變化都會有所犧牲，VLIW4也不例外。對游戲來說，Radeon HD 6900將不再像以前那么好地處理VLIW5型的頂點著色器。一般來說這種游戲都已經(jīng)很快了，但是如果一開始就受到GPU能力的限制(即顯卡是瓶頸)，Radeon HD 6900系列就跑不多快。另一大損失就是當超越操作和矢量操作配對的時候，Radeon HD 6800可以每時鐘周期處理兩個，Radeon HD 6900就需要兩個時鐘周期。AMD認為這種情況很少見，損失也是值得的。

值得一提的是，AMD仍然認為VLIW4是一種風險性的試驗設計，Radeon HD 6900也更像是一個試驗品。此時此刻，AMD應該早已完成了真正的試驗，正在設計采用28nm工藝的后續(xù)新核心，是否繼續(xù)采用VLIW4也肯定有定論了。

最后，核心架構的變化必然牽涉到驅動程序的轉變與配合。壞消息是，很多針對VLIW5架構設計的著色器編譯器都沒用了，因此初期階段著色器編譯器性能會變差一些。好消息是，隨著時間的過去，AMD會逐漸掌握更好地為VLIW4設計編程，Radeon HD 6900系列也有希望在以后的日子里獲得性能上的大幅提升(注意只是可能)。

隨著VLIW的縮短，部分代碼重新編寫是必然的了，AMD的著色器編譯器也要經(jīng)歷一個代碼優(yōu)化的過程，但如果內(nèi)核本身就是專為VLIW5而設計的，AMD的編譯器就無能為力了。

順附兩種架構可執(zhí)行操作的對比：

VLIW5:

4 32-bit FP MAD

或者2 64-bit FP MUL/ADD

或者1 64-bit FP MAD

或者4 24-bit Int MUL/ADD

加上1 transcendental或者1 32-bit FP MAD

VLIW4:

4 32-bit FP MAD/MUL/ADD

或者2 64-bit FP ADD

或者1 64-bit FP MAD/FMA/MUL