鋪平未來之路:AMD顯卡架構轉換深度解密
- 來源:驅動之家
- 作者:batyeah
- 編輯:ChunTian
這種變化的好處有很多。并行計算方面最明顯的就是此前用于特殊單元的內(nèi)核面積可以節(jié)省出來安置更多SIMD引擎,比如Cypress Radeon HD 5800 20個,Cayman Radeon HD 6900就增加到了24個,平均下來后者的著色器區(qū)塊效率要高10%。與此同時,紋理單元的數(shù)量、可以并行執(zhí)行的線程數(shù)量、每個時鐘周期可以執(zhí)行的64位浮點操作數(shù)量都隨之發(fā)生了變化,特別是后者使得AMD GPU的64位雙精度運算能力達到了32位單精度浮點的四分之一(以往是五分之一)——事實上單個流處理器單元的計算能力并沒有變化,只不過布局的重新設計使得彼此工作的效率更高了。
SP變化的同時,寄存器文件卻沒動,于是每個SPU的寄存器所承受的壓力更小了,因為現(xiàn)在只有四個SP爭奪寄存器空間。調度也更簡單了,因為需要調度的SP更少,而且彼此完全相同,不需要考慮w/x/y/z單元和t單元的差別。
游戲方面的改善也類似。已經(jīng)習慣了VLIW5架構的游戲有了更多SIMD引擎可以使用,意味著紋理處理能力更強,計算/紋理的比例也因此降低,有利于那些側重于紋理和過濾而不是計算的游戲。
當然,任何架構上的變化都會有所犧牲,VLIW4也不例外。對游戲來說,Radeon HD 6900將不再像以前那么好地處理VLIW5型的頂點著色器。一般來說這種游戲都已經(jīng)很快了,但是如果一開始就受到GPU能力的限制(即顯卡是瓶頸),Radeon HD 6900系列就跑不多快。另一大損失就是當超越操作和矢量操作配對的時候,Radeon HD 6800可以每時鐘周期處理兩個,Radeon HD 6900就需要兩個時鐘周期。AMD認為這種情況很少見,損失也是值得的。
值得一提的是,AMD仍然認為VLIW4是一種風險性的試驗設計,Radeon HD 6900也更像是一個試驗品。此時此刻,AMD應該早已完成了真正的試驗,正在設計采用28nm工藝的后續(xù)新核心,是否繼續(xù)采用VLIW4也肯定有定論了。
最后,核心架構的變化必然牽涉到驅動程序的轉變與配合。壞消息是,很多針對VLIW5架構設計的著色器編譯器都沒用了,因此初期階段著色器編譯器性能會變差一些。好消息是,隨著時間的過去,AMD會逐漸掌握更好地為VLIW4設計編程,Radeon HD 6900系列也有希望在以后的日子里獲得性能上的大幅提升(注意只是可能)。
隨著VLIW的縮短,部分代碼重新編寫是必然的了,AMD的著色器編譯器也要經(jīng)歷一個代碼優(yōu)化的過程,但如果內(nèi)核本身就是專為VLIW5而設計的,AMD的編譯器就無能為力了。
順附兩種架構可執(zhí)行操作的對比:
VLIW5:
4 32-bit FP MAD
或者2 64-bit FP MUL/ADD
或者1 64-bit FP MAD
或者4 24-bit Int MUL/ADD
加上1 transcendental或者1 32-bit FP MAD
VLIW4:
4 32-bit FP MAD/MUL/ADD
或者2 64-bit FP ADD
或者1 64-bit FP MAD/FMA/MUL
或者4 24-bit INT MAD/MUL/ADD
或者4 32-bit INT ADD/Bitwise
或者1 32-bit MAD/MUL
或者1 64-bit ADD
或者1 transcendental加上1 32-bit FP MAD
玩家點評 (0人參與,0條評論)
熱門評論
全部評論