您的位置：首頁 > 新聞 > 高新技術 > 新聞詳情

鋪平未來之路：AMD顯卡架構轉換深度解密

時間：2010-12-16 13:31:09

來源：驅動之家
作者：batyeah
編輯：ChunTian

2007年，ATI發(fā)布了R600架構的Radeon HD 2000系列，也是自己在PC領域首次引入統(tǒng)一著色架構，而且又一次使用了VLIW5。盡管這是DX10產(chǎn)品，但仍能很好地處理DX9頂點著色。GPGPU通用計算普及之前，這種架構適應得很好。

接下來進入2008年。顯卡廠商在規(guī)劃產(chǎn)品的時候一般都要考慮到兩年之后乃至更久的情況，所以Cayman Radeon HD 6900系列的設計那時候就已經(jīng)著手了。當時GPGPU通用計算才剛剛起步，NVIDIA開始追逐的那個市場最多價值幾百萬美元，DX10游戲也還沒有成型，但是AMD預測認為，通用計算將在兩年后(也就是現(xiàn)在)變得非常重要，DX9也會基本讓路給DX10/11，所以就必須提前重新評估VLIW5設計的優(yōu)劣。

果不其然，GPGPU通用計算已經(jīng)開始大行其道，Windows 7、DX10/11也正在將DX9擠下歷史舞臺。根據(jù)AMD的內部數(shù)據(jù)，VLIW5架構的五個處理槽中平均只能用到3.4個，也就是在游戲里會有一個半白白浪費了。顯然，DX9下非常理想的VLIW5設計已經(jīng)過時，它太寬了，必須縮短流處理器單元(SPU)，重新設計里邊的流處理器(SP)布局。

AMD的顯卡核心架構非常依賴指令級并行運算(ILP)，也就是將指令放在單獨一個線程內，和其他可以并行的線程沒有任何關聯(lián)。VLIW5下最理想的情況就是五個指令能夠在每個時鐘周期里、每個SPU上一起調度執(zhí)行，但這種概率非常低。按說平均使用3.4個已經(jīng)不錯了，但換算下來還是不足80％，結果就是從工作負載種提取ILP非常困難，導致最好、最壞應用環(huán)境相差太多。

與之形成鮮明對比的是線程級并行計算(TLP)，那些沒有任何關聯(lián)的線程也可以同時執(zhí)行。這正是NVIDIA在高端核心上所依賴的設計理念，GF100/GF110都是借助TLP達到高效率的標量架構。

最終，AMD意識到VLIW5架構已經(jīng)不適合繼續(xù)發(fā)展，必須面向未來準備一種新的高效率架構，不但要提高平均使用率(大于3.4個)，還需要適應并行計算負載，結果就是轉向VLIW4。

VLIW4相比于VLIW5最特殊的地方就是去掉了體積最大、可同時處理普通整數(shù)/浮點操作和超越操作的第五個SP t單元，或者說特殊功能單元(SFU)。這就意味著，每個SPU可以一次性處理的普通整數(shù)/浮點操作數(shù)從五個減少到四個，同時還可以將三個SP合并起來處理一個超越操作。