Table of Contents
Evergreen 架構
講了這麼多 Evergreen 發展過程中的插曲,接下來讓我們回到 Evergreen 架構本身吧,首先要說的是,Evergreen 架構實際上就是第二代 Terascale,因此基本上不必期待在架構上見到太多變化,以下就是 Evergreen 系列核心當中規模最大、最完整的 Cypress 內部的架構圖:
還記得我剛剛提到過 Cypress 的目標是達到 RV770 的兩倍性能嗎?從上面的架構圖當中相信最明顯的就是中間那堆方塊了吧,看起來是不是很像兩顆 RV770 去頭去尾之後的樣子呢?這就是 Cypress 當中對於性能加倍要求最直接的體現,但實際上 Evergreen 的改進並不僅止於把舊架構延伸兩倍,若深入去看每個部份就會發現其實幾乎各個地方都有大大小小的調整,首先讓我們從最上面的部分開始看起 (AMD 幫這部份起了個新名字叫做 Graphics Engine)。
這部分跟過去相比的差異並不是那麼明顯,從圖上可以見到的主要改進內容是增加了第二組的 Rasterizer 與對應的階層式 Z-buffer,除此之外就是 Terascale 架構最重要的特徵-Ultra-threaded Dispatch Processor 了,之所以特別增加了第二組 Rasterizer,主要的考量是希望確保在後續的運算資源倍增之後,將多邊形分拆為像素運算的動作可以快到至少能夠餵飽後面的運算單元,而避免閒置的狀況發生。
不過如同前面談 DirectX 11.0 時特別強調的,Tessellation (曲面細分) 是這一世代最重要的新功能之一,因此理所當然 AMD 在這裡針對 Tessellator 做了很多強化,讓其能夠從前幾代基於自家特殊規格且始終未獲得廣泛應用的功能脫胎換骨成為符合 DirectX 11 規範的曲面細分電路,不過不幸的是 AMD 僅針對曲面細分電路本身進行強化,因此後來在 NVIDIA 推出次世代產品之後,AMD 的曲面細分性能就無法與 NVIDIA 的產品匹敵了,這造成最後曲面細分反而變成 NVIDIA 主打特色之一,讓 AMD 的處境可說是十分的尷尬。
接下來要看到的就是運算引擎的部分了,AMD 同樣是採延續前代架構的方式進行,但是一舉將 SIMD Array (現在改稱 SIMD Engine) 的數量提高為 20 組,並且給每組 SIMD Engine 都設計了專屬的 32 KB 本地資料記憶體 (主要是為了運算用途),可供單一 SIMD Engine 裡的 160 個 SPU (現在改稱 Stream Cores) 存取,而上一代所加入的全域資料分享記憶體也被保留了下來 (而且大小從 16 KB 一口氣翻了四倍變成 64 KB)。
在新架構之下意味著 Evergreen 至多可以擁有高達 1,600 個 SPU (SC),除此之外 AMD 也在 Evergreen 的 SIMD Engine 當中納入許多配合 DirectX 11.0 與 DirectCompute 11 的小改善,因此說 Evergreen 是世界上第一款完整支援 DirectX 11.0 的 GPU 是沒有任何問題的。
除此之外為了能夠妥善處理數量規模加倍之後 SIMD Engine 大增的資料產出量,Cypress 中的四組 L2 Cache 也相較於前代來說增加了一倍 (64 KB → 128 KB),並且大幅提升了資料傳輸率,ROP 的數量也增加了一倍 (高達 32 組)。
Cypress 核心
簡單看過第二代 Terascale 架構之後,接下來循往例要開始看實際產品了,首先登場的是最完整的 Cypress 核心,由高達 21 億個電晶體組成 (如同架構一般,這超過了 RV770 的兩倍,足足是 GT200 14 億的 1.5 倍之多),但得益於新的 40 奈米製程,Cypress 的面積相較於 RV770 來說其實並沒有出現太誇張的成長 (282 平方公分 → 334 平方公分),
基於 Cypress 的型號主要有三款,全部都屬於 HD 5800 系列,分別是最高階的 HD 5870 (850/1200 MHz)、HD 5850 (725/1000 MHz) 與隔年二月才追加的 HD 5830 (800/1000 MHz),值得注意的是其中只有 HD 5870 具備完整的 20 組 SIMD Engine (1600 個 SC),HD 5850 則是少掉 2 組 (因此只有 1440 個 SC),HD 5830 更是只剩下 14 組 (只具備 1120 個 SC),隨著 SIMD Engine 的閹割,TMU 的數量也跟著減少,分別為 80、72、56 組,從這裡可以看出 Cypress 的良率其實仍然不算高,因此產生了大量需要部份屏蔽 SIMD Engine 的產品。
Hemlock
然而在 HD 5000 系列這一代,AMD 還是繼續沿襲了前兩個世代的作法,也就是在自家最高階的產品使用兩顆中高階 GPU 組成單卡雙晶片結構的方式,因此代號為 Hemlock 的 HD 5970 實際上就是由兩顆 Cypress (與 HD 5870 同為完整版核心) 所組成,不過時脈略降為 725/1000 MHz (下圖最右邊最長的那張就是 HD 5970 了)。
整體來說 Hemlock 的做法與前兩代並沒有甚麼不同,同樣是由 PLX 橋接晶片負責連接兩顆晶片,並且各自保有各自的記憶體系統的方式組成。