在看完 Tesla 架構的一系列產品之後,接下來讓我們把目光移回 AMD 陣營吧,如同過去的歷史一般,在 NVIDIA 推出支援 DirectX 10.0 與基於統一渲染器架構的 Tesla 之後,AMD 理所當然也必須推出相應的產品做為抗衡,也就是本篇的主題-Terascale 架構。
Terascale 架構
不同於 NVIDIA 從 Tesla 以降都是以 CUDA 架構為基礎下去改變配置與優化而來,從 DirectX 10 時代開始 AMD 陣營的 GPU 架構目前為止可分為兩次大幅改版,分別是本篇要介紹的 Terascale 與之後才會談到的 Graphics Core Next (GCN) 架構,前者先後有過三次改版,並主宰了 2006 ~ 2012 這六年中 AMD 絕大多數的圖形晶片產品,後者則是從 2012 年推出的 HD 7000 系列發展至今。
與介紹 Tesla 時相似,接下來我也同樣打算將 Terascale 分為三期介紹。
Terascale 1.0
- 推出日期:2007 年 05 月 (R600)
- 所屬系列編成:Radeon HD2000、HD3000 系列
- API 支援:DirectX 10.0、OpenGL 3.3
- Shader Model 支援:SM 4.0
R600 的前世今生
還記得在 5-16 當中我談到 Radeon R500 時曾經用不小的規模在談 Radeon R500 從宣布到上市這之間經歷過多少次延遲嗎?早在 2005 年初人們就得知了 R520 的存在並且被告知這款晶片將在兩個月後上市,但卻一路等了八個月才見到其真面目,而當時 ATI 實際上在 R400 系列的挫敗之後所剩的力氣已經無多,這某種程度上就是 AMD 得以在 2006 年將 ATI 收入麾下的主要因素之一。
不過實際上比起 R500 系列的代表 R520 來說,比較重要的其實是下面這顆代號 Xenos 的晶片 (由 ATI 設計,用於微軟的 XBOX 360 上),重要的程度甚至超過上一代的 R520,原因是我們現在要談的 R600 則實際上比起 R520 來說更接近 Xenos 一些 (Xenos 才是 ATI 的第一款統一渲染器架構 GPU,因此實際上 ATI 開始搞統一渲染架構的歷史是比 NVIDIA 要來得更早的),某種程度上可以視為 R520 + Xenos 合體之後的改良版本。
如同我們所知道的,AMD 在 R520 與 Xenos 這兩款產品上耗掉了太多時間造成了很嚴重的困境,先前過於漫長的延期實際上已經擠壓到 R600 的開發與上市時程並且形成了後來將持續造成許多影響的骨牌效應 (畢竟投產的成本很高,除了 Intel 曾經搞過很短命的 Broadwell 之外,大概很難看到有晶片廠商願意投產之後沒多久就讓產品下台,而且改善良率跟細部修正也很花時間),最終造成的結果就是 R600 推出的時候實際上 NVIDIA 已經作為市面上唯一的統一渲染架構 GPU 稱霸市場好幾個月了 (不過幸好當時 DirectX 10.0 的遊戲寥寥無幾而且 Windows Vista 的推動並不順利,所以 AMD 還能一直死守住高性價比的中低階與入門市場)。
在開始談 R600 之前我們先來看看其前身 Xenox 吧,這款晶片最特別的地方應該就是採雙晶片封裝吧?或許是出於製程的考慮,當時微軟與 ATI 決定將運算單元 (繪圖管線) 與記憶體控制器之外的部分獨立成一個子晶片 (主要是後期貼圖與輸出的部分與 10 MB 的 eDRAM,這 10 MB 的 eDRAM 主要負責反鋸齒方面的資料暫存,因此 XBOX 360 的反鋸齒能力很強),而子母晶片之間則使用 32 GB/s 的匯流排連接。
不過 eDRAM 並沒有被使用在電腦的 GPU 上,因此在後來的 R600 當中我們是看不到這樣的設計的 (其實目前為止比較為眾人所知的也只有 Intel 的 Broadwell 有在電腦上使用過 eDRAM),至於下面這張則是 Xenos 的架構圖,可以見到其實它的規格與架構都不高,大概僅有同期中低階 GPU 的水準 (完全不及 R400),而且因為新的架構設計還不成熟,因此在時脈方面的表現也不甚良好 (其實絕大多數家用遊戲機的圖形處理能力都不及個人電腦,只是由於遊戲機環境單純因此相對來說更容易大幅度優化而已)。
但要特別提到的是,Xenox 的架構並不完全符合 DirectX 10 規範,由於對原先頂點著色器功能的替代方案實作並不完整,因此並不能獨立運作而是需要 CPU 承擔較多的工序,並且三組由 16 個 5D 向量 SIMD 運算單元組成的渲染器管線並不能同時處理頂點與像素指令,一次只能處理其中一類。
一個統一渲染器架構,各自表述
由於關於 DirectX 10.0 引入的新特色在前三篇當中我們已經談過很多了,所以為了節省邊幅接下來我並不打算再重述那些東西,讓我們直接從 Radeon R600 的架構開始看起吧。
相較於 NVIDIA 把舊架構整個推掉重練變成全新的 CUDA 架構來說,Radeon R600 上則可以看到很多來自其前身 (R520 與 Xenos) 的影子 (下圖是 R520 的架構圖),畢竟在設計過程中這兩大廠商的思維就有很大的不同了,NVIDIA 著眼於通用運算與高性能運算 (HPC) 的龐大市場而逐步從原本追求的圖形性能轉向更加激進的追求提升平行運算效率,因此在架構上完全是以新的流處理器體系為核心下去堆疊而成。
至於 ATI 的思維則是比較接近傳統的 GPU 設計路線,想法上很簡單,將公司花費大量心力的 Xenos 所創造的技術與 Radeon R500 的框架與特質截長補短,最後再加上 DirectX 10.0 等新技術的支援就是次世代 GPU 所需要的要素了,整體來說的話其實我覺得當時 ATI 的想法比較聰明 (畢竟他們在設計 Xenos 的時候就可以提前接觸到下一代 DirectX 可能發展的一些方向與技術了,這是 ATI 當時相對於 NVIDIA 而言所具有的優勢,某種程度上也是因為 NVIDIA 與微軟之間曾經為了第一代 XBOX 的圖形晶片有過法律糾紛的原因才讓 ATI 得到了更多得以走近微軟的機會)。
先了解這樣的設計背景之後,對於 ATI 為什麼會這麼設計他們在被 AMD 併購前的最後一個產品也就不會感到太意外了,從前面提供的三張架構圖中其實不難發現,R600 的像素管線規劃跟 Xenos 很類似,但除了像素管線之外的部分規劃上則幾乎與 R520 一模一樣,特別是 R520 最重要的變革-Ultra-Threaded Dispatch Processor 與環狀記憶體通道也被保留下來了,不過這僅是在架構圖的層面,實際上新的 Ultra-Threaded Dispatch Processor 與前作內的在設計上其實大有不同,因為 Unified Shader Architecture 下它要處裡的資料與指令類型、複雜度都已不可同日而語。
前面提過 R600 是 ATI 的第一款統一著色器架構 GPU,理所當然 R600 相較於前作在架構上最大的不同會出現在中央繪圖單元的部分,不過值得注意的是 ATI 在這裡選擇了與 NVIDIA 截然不同的方式來實作統一著色器架構 (微軟在 DirectX 10 規範當中只有要求統一著色器,但沒有具體規範如何實作),還記得在上一篇當中我們曾經見過 NVIDIA 使用的架構是採用 TPC 架構,內部包了二到三組 SM,而每組 SM 當中又有八個「純量」流處理器,這也正是 NVIDIA 在進入統一著色器架構時代之後可以突然喊出有幾百個流處理器的原因 (下圖)。
但 ATI 選擇的設計方式則不是如此,在 ATI 的架構中運算管線 (稱之為 SIMD Array) 是由數組運算單元組成,但不同於 NVIDIA 選擇讓所有流處理器 (SP) 各自獨立為單一純量運算單元的作法,ATI 選擇將其「分組」配置,每組「SP」當中包含了五個純量運算單元 (Stream Processing Units, SPU) 與一組負責控制與分配工作的分支執行單元 (Branch Execution Unit, BEU)。
如果你還記得我在 5-18 當中解釋 NVIDIA 為何要將傳統的 3D 向量 + 1D 純量處理單元拆成一大堆 1D 純量處理單元的話,當時我說是為了讓電路中的運算單元可以被彈性的充份利用,從而避免在處理只需要 1D 純量或 2D 向量時運算單元當中有電路閒著沒事做的問題,或許你會想問為何即便如此 ATI 還是選擇了傳統的做法,實際上是因為 ATI 選擇了另一種稱之為 Very-Long Instruction Word (VLIW) 的實作方法的關係,這種作法讓 ATI 的 GPU 實質上也變得跟 NVIDIA 一樣,可以將這 5 個運算單元分開運用 (只是做法顛倒而已)。
VLIW 的運作原理籠統上可以被視為將多個短指令合併為長指令從而避免造成資源的閒置與浪費 (當然也是要付出代價的,前端處理電路與分支執行電路都會變得複雜,而且對性能的影響程度也會吃重,而且只有沒有相依的指令才能被合併),實際上 NVIDIA 與 ATI 的做法之間並沒有明顯的優劣,前者有著相對來說設計單純、容易拉高時脈且高效率但會造成電晶體與連線數量大幅成長的問題 (畢竟每個純量運算單元都要有自己的輸入與輸出),後者則是提升流處理器數量的困難度相對較低 (整組共用一個輸入與輸出) 但若 VLIW 成效或合成成功率不彰就會直接導致性能低落,而且時脈拉不上來。哪種架構較優則端視實際遇到的遊戲所發出的指令如何編排與 VLIW 合成指令的成功率有多高、判斷指令相依性的能力有多強 (這跟驅動程式與 Ultra-Threaded Dispatch Processor 是否成功有很大關係,熟悉 AMD 與 ATI 的人應該都知道當年 ATI 的驅動程式功力有多差吧?) 而定。
根據架構圖來說,R600 在最糟糕的情況下幾乎只相當於 64 個 NVIDIA 架構中的 SP,但如果排到最理想狀態的話,則相當於高達 320 個 NVIDIA 架構中的 SP,所以 ATI 的設計是否能夠成功其實取決於遊戲本身的設計與驅動程式的好壞,不過從歷史上的教訓來看 NVIDIA 綁住遊戲廠商的成功率與功力好像始終顯著高於 ATI?
流處理器之亂
我們說 G80 與 G92 有數百的流處理器 (SP) 實際上由來只是從原本的數十組由 4+1 或其他組合方式拼成的運算單元拆成一堆小純量處理電路來看的結果,但在宣傳上確實可以造成不小的效果 (畢竟如同時脈戰爭一般,當時電腦規格的不成文規定就是數字小的就輸了)。
為了避免在行銷上輸給 NVIDIA,因此 AMD 即便旗下顯示晶片產品內的架構是將 5 個運算邏輯單元 (ALU) 拼起來才組成一組處理器 (共用一組輸入與輸出) 但仍然自稱自家的 R600 核心可以包含至多 320 組流處理器 (SPU),實際上這個數字也是換算出來的,由 4 組繪圖管線乘上每組 8 個子處理器,每個子處理器內又由兩套共計 10 組運算邏輯單元所組成,數量能比 NVIDIA 多那麼多的原因其實是 ATI 的每組 SPU 之間所能負責的事情其實不盡相同,例如處理三角函數等特殊計算的單元就只佔所有 SP 當中的 1/5。
不過最終這樣的做法其實造成了後來不少的混亂,實際上大約就是從這個時期開始兩家廠商之間使用的專有名詞就常有意義不同或是名過其實的情況,而且實際上在架構設計不同的狀況下比較 SP 的數量或是 ALU 的數量是沒有任何意義的。
第二代環狀記憶體通道
至於在記憶體匯流排的部分呢,R600 大致上是沿襲自 R500 系列後期產品 (R580) 的設計,但是為了降低設計不同等級晶片的難度與複雜度,在 R600 系列當中的環狀記憶體通道是採用完全去中心化的設計,因此不會再見到中央集線器的蹤影。
去中心化的好處是增加新的 Ring Stop (你可以想像成環狀公路上的公車站牌) 時的佈線會變得比較單純與容易,並且能夠降低電路設計的複雜度 (至少不必拉一堆線連接到中間的控制器上),但相對來說效率則沒有先前那麼高 (畢竟當時有個中央控制器隨時在找最佳路徑,而且可以透過中央控制器的路徑來跳過不需要經過的 Ring Stop),但當時的 ATI 認為這個缺憾可以透過增加記憶體界面的寬度來補足,因此最高階的 R600 足足由八組 64-bit 的記憶體控制器 (4 組雙通道) 組成,使得總對外記憶體通道寬度一舉來到 512-bit,對內部而言若算上雙向傳輸則是高達 1024-bit,突破了當時的最高紀錄。
不過最後的答案表明在 R600 上這樣的設計並不成功,太多組記憶體控制器造成的結果是延遲變得明顯許多,最終反而在性能表現上顯得差強人意,而為了增加這些東西所占去的額外晶片面積與造成的額外發熱、耗電反而益加明顯,且這意味著需要配置的記憶體顆粒數量將居高不下 (無法隨著記憶體單一顆粒的大小而簡化設計) 造成成本問題,因此之後的產品中有很長一段時間我們不會再見到記憶體通道寬度高達 512-bit 的 GPU。
除了記憶體寬度的問題之外,R600 的記憶體控制器還有另一個比較大的特色是支援了 GDDR4 記憶體,不過在歷代圖形記憶體當中 GDDR4 恰巧是命運最悲劇且採用率最低、生存年代最短的一代,有機會的話我打算在本章的結尾談談歷代圖形記憶體的演進,到時候應該會談到這部分的歷史。
材質處理單元
另一項 R600 架構相較於 R520 而言比較大的差異則出現在材質對應單元 (TMUs) 的部分,在 R600 當中 ATI 重新設計了負責處理材質貼圖的單元以支援 DirectX 10.0 當中增加的 8192×8192 材質貼圖支援與 RGBE 9:9:9:5 材質格式等要求,此外,由於 R600 的 TMU 完全獨立於運算引擎之外,是聽 Ultra-Threaded Dispatch Processor 號令做事的,因此可以在流處理器提出要求之前就先進行資料取樣等運算工作,理論上這可以提高性能。
上圖是完整版大核心 R600 內的編制 (有四個材質處理模組),其中每個材質處理模組當中都包含了 8 個材質位置處理器、20 個材質取樣器與 4 個材質過濾單元 (相對於對手的 G80/G92 來說少了很多,如同 R500 系列時期一般,基於繪圖管線對性能的影響比材質對應單元來得明顯許多的觀點,ATI 在此代產品當中把 TMU 與運算單元之間的數量差距比例拉得更開了),並且連結到三層快取 (依序是頂點快取與一、二級的材質快取,這是 R600 的新規劃,ATI 在上一代產品當中並沒有將材質快取分為兩層,而且快取大小也小很多,這是為了引入統一渲染器架構而做的配套改變,以滿足新的運算單元需要的資料存取效率),如同上圖當中可以看到的,在 20 個材質取樣器當中有 4 個是不經過材質過濾單元的,主要用於處理頂點,而材質位置處理器也可分為兩組,一組連結到材質快取,一組則是負責處理頂點。
渲染輸出單元 (ROP)
至於渲染輸出單元的部分改變就不是那麼明顯了,大致上是沿襲 R500 系列所使用的架構而來,主要的改進出現在材質壓縮技術的部分,在 R600 當中可以使用更高壓縮比例的模式。
R600 中的 ROP 可分為 16 個多重採樣子單元 (主要用於處理多重採樣反鋸齒 MSAA)、4 個用於處理 Alpha/Fog 的子單元、8 個用來處理 Z-buffer 與 Stencil Buffer 的單元、4 個融合子單元,儘管相對於對手的產品來說數量較少,但由於 ATI 的晶片並不像 NVIDIA 有在內部進行高低分頻處理,因此在 ROP 的部分 ATI 晶片的運作時脈比 NVIDIA 高出不少,理應足以彌補數量上的不足。
R600 核心
接下來讓我們把焦點移回到產品本身吧,基於 Terascale 1.0 的第一款產品就是完整版的 R600 核心,是 R600 系列當中規模最大的版本,包含了完整的 320 個串流處理器單元 (SPU) 與 4 組渲染輸出模組 (相當於 16 個 ROP)、4 組材質對應單元 (相當於 16 組 TMU),同時 R600 也是系列當中唯一一款繼續使用上一世代 80 奈米製造工藝的產品。
R600 在 2007 年 05 月被命名為 Radeon HD 2900 系列推出,先後發佈了 2900 XT (743/1000 MHz + GDDR4 與 743/828 MHz + GDDR3)、2900 PRO (600/925 MHz + GDDR4 與 600/800 MHz + GDDR3,搭配 GDDR3 時記憶體頻寬只有 256-bit)、2900 GT (601/800 MHz + GDDR3,但記憶體頻寬閹掉一半且 SPU 只剩下 240 個,渲染輸出模組與材質對應模組各被刪減了一組)。
Table of Contents
RV630 核心
在中階產品線的部分 ATI 則是推出了 RV630 核心,從架構圖上可以很容易得知其實就是以 R600 為基礎下去「大幅」刪減而來的,比較特別的是這兩款晶片都採用了新的 65 奈米製程技術。
從下圖中可以注意到 SIMD Array 從四排變成只剩三排,而且每排還都只剩下原本的一半,因此 SPU 的數量只剩下 120 個,而材質對應引擎的部分也砍到只剩下一半,而砍掉最多的則是渲染輸出模組 (ROP) 的部分,只剩下原來的 1/4。
在記憶體介面的部分 RV630 也有很明顯的刪減,但在架構設計上仍然與 R600 保持著高度相似,同樣使用了去中心化環狀通道與 Ring Stop 的設計,只是在寬度上縮減了一半,並且保留了對 GDDR4 記憶體的支援能力 (除此之外也可以搭配 GDDR3 或 DDR2 記憶體)。
RV630 後來以 HD 2600 系列的名義上市,有 HD 2600 XT 與 HD 2600 PRO 兩個型號,前者時脈為 800 MHz 並可以搭配 GDDR4 記憶體 (1100 MHz) 或 GDDR3 記憶體 (800 MHz),後者的時脈則為 600 MHz,僅能搭配 DDR2 記憶體 (500 MHz) 或 GDDR3 記憶體 (700 MHz),頻寬均為 128-bit。
最後要提到的是 RV630 後來在 2009 年還被改名為 HD 3610 推出,但只能搭配 DDR2 記憶體且時脈進一步被調低為 594/396 MHz。
RV610
至於最低階的 RV610 則是把 RV630 進一步砍到見骨的版本,RV610 的記憶體介面已經簡化到「不成環形」了,只剩下至多 64-bit 的寬度並且拿掉了對 GDDR4 的支援,材質對應模組的部分也再次砍半,原先的三條 SIMD Array 也只剩下兩條並再次砍掉一半,所以最多只有 40 個 SPU。
但實際上砍掉的還不只這些,連第二層材質快取跟階層式 Z-buffer 都拿掉了,最後看到產品的部分,基於 RV610 的有四款,依序是 HD 2400 XT (650/700 MHz + GDDR3 或 650/500 MHz + DDR2)、HD 2400 PRO (525/400 MHz + DDR2)、HD 2350 (525/400 MHz + DDR2,記憶體頻寬砍到只剩 32-bit) 與後來在 2009 年推出的改名版 HD 3410 (519/396 MHz + DDR2)。
Terascale 1.1
- 推出日期:2007 年 11 月 (R600)
- 所屬系列編成:Radeon HD 3000 系列
- API 支援:DirectX 10.1、OpenGL 3.3
- Shader Model 支援:SM 4.1
策略大轉彎前的預告
第一代的 Terascale 並不成功,因此在 Radeon HD 2000 系列推出不過半年時 AMD 就急於端出 HD 3000 系列了,不過其實在這麼短的時間之內 AMD 基本上不可能弄出一個大幅改變的架構,因此做為 Terascale 1.0 架構繼任者的 Terascale 1.1 在功能特性上基本上與前作沒有太大的差異,並且換上了新的命名方法,從 HD 3000 系列開始就不會再有 GT、GS、XT 之類的後綴了 (說起來跟 Intel 挺像的,當年 Pentium 4 發展不順就改用數字命名法代替改名)。
老樣子,從架構開始看起吧。這代產品的代號依然屬於 Radeon R600 系列,最完整的大核心是 RV670 (這蠻有意思的,以往完整版核心是不會有 V 這個字的,這暗示著接下來 AMD 即將對其顯示晶片發展的策略進行一次巨大的改變),下面這張圖就是 RV670 的架構,不要懷疑我真的沒放錯圖,看起來跟 R600 真得幾乎一模一樣。
基本上你可以說 RV670 這一世代是 AMD 在 R600 身上學到教訓之後進行的路線修正,我在前面談到 R600 內建的超寬記憶體環狀通道的時候提過這樣的設計其實帶來了很多代價 (像是延遲過高、線路複雜、良率問題、功耗問題與成本問題),而最後在 R600 成品表現中顯示的也正是如此,而且這些代價還高過於性能的提升,甚至在某些情況下 R600 的表現還反而輸給以前的設計,這是 AMD 在 R600 身上學到最血淋淋的教訓-有時候「理論性能」與「實際性能」是兩回事、複雜與困難的設計未必有比較好的效果、造出一個性能怪物不見得就能贏得一切、性能王者的寶座並不代表一切。
在這樣的狀況之下 RV670 誕生了,上面這張圖揭示了 RV670 最大的特色-有史以來頭一遭,新款 GPU 的電晶體數量居然比上一代還要少!這是 AMD 開始由追求效能最大化轉向追求效率最大化的起點 (有點類似 Intel 從 Netburst 轉入 Core 之後的思維改變),而且加上新的 55 奈米製程之後,RV670 的晶片大小遠比 R600 來得小上很多 (從 40.8 平方公分直接降到 19.2 平方公分),這直接讓成本降低了不少,也暗示著 AMD 從此將不再致力於追求奪下 NVIDIA 手中的性能王冠,而是轉向追求在價格甜蜜點 (Sweet-point),也就是主流中階市場中提供最高 C/P 值與最高利潤、銷量的產品。
不增反減的記憶體頻寬與 DirectX 10.1
RV670 系與 R600 最明顯的差異主要有三個地方,首先是記憶體頻寬的部分,儘管 RV670 仍然使用從 R500 就導入的環型記憶體通道設計,但 RV670 中的環型記憶體通道頻寬是減半的,改為單向僅 256-bit,因此雙向合計為 512-bit 的設計,對外連線頻寬也降回 256-bit,這是 RV670 電晶體總數不增反減的主要原因。
第二個主要差異則是 RV670 是全世界第一款實做 DirectX 10.1 硬體支援的 GPU,關於 DirectX 10.1 的內容我在上一篇談過不少了,特別是 AMD 先做出來而 NVIDIA 就開始大喊 DirectX 10.1 無用論的故事,所以在這邊就不再贅述了。
最後一項主要差異則是 RV670 正式加入了對 PCI Express 2.0 的支援 (R600 只支援到 PCI Express 1.1),其他沒提到的還有 RV670 之後開始加入 ATI 原先只用在筆記型電腦版本 GPU 的 PowerPlay 動態省電技術之類的。
RV670 核心
RV670 是這系列當中最為完整的核心,配合 AMD 的新戰略因此實際上目標市場是中高階而非頂級玩家市場,除了記憶體頻寬減半之外帳面規格幾乎跟 R600 一模一樣,但是得益於新的 55 奈米製程,RV670 的時脈上限得以稍微再拉高一些,因此可以使用較低的價錢提供與前作差不多的性能,在市場上有著還不錯的表現,實際上市名稱為 HD 3800 系列。
HD 3800 系列當中有三款型號,依序是最高階的 HD 3870 (相當於以前的 XT,777/1126 MHz + GDDR4 或 777/900 MHz + GDDR3),HD 3850 (相當於以前的 PRO,668/900 MHz + GDDR4 或 668/830 MHz + GDDR3) 與較低階的 HD 3830 (668/828 MHz + GDDR3),不過 RV670 真正有意思的產品其實不是 HD 3800 系列,而是久違的單卡雙晶片 HD 3800 X2 系列。
單卡雙晶片重出江湖
剛剛提過 AMD 在 R600 之後改變策略,轉為追求高利潤、高 C/P 值且高銷量的中階產品為主,因此在 RV670 推出之後 AMD Radeon 產品線的高階產品陷入了懸缺狀態,而這時 AMD 選擇的策略並不是搞出一顆更大的 R680,而是重新啟用當年曙光女神計畫與對手 9800GX2 的單卡雙晶片作法,推出了 HD 3870 X2 與 3850 X2 兩款產品 (下圖是 3870 X2,這張卡真的超長)。
HD 3870 X2 顧名思義基本上就是用兩顆 HD 3870 去拚出來的東西,AMD 把這玩意兒的代號取名叫 R680 以彰顯其接替 R600 地位的意涵,但實際上仍然是用 RV670 堆出來的,不過有意思的是 HD 3870 X2 當中使用的 RV670 運作時脈高達 825 MHz,比單晶片的 HD 3870 還要來得更高,記憶體晶片的時脈設定也沒有因為提升到雙晶片而降低。
RV635 核心
在中階市場的部分 AMD 也很快速地推出了由 RV670 簡化而來的 RV635 核心 (實際上也可以看成 RV630 融入部分 RV670 特性的改良版),配置上與 RV630 一樣僅保留了 40 個 SPU,記憶體控制器也同樣降為 128-bit 寬度。
RV635 核心主要被用於 HD 3600 與 HD 3700 系列,共計推出了 HD 3750 (796/693 MHz + GDDR3)、HD 3730 (722/405 MHz + DDR2)、HD 3650 (725/800 MHz + GDDR3/GDDR4/DDR2) 三個型號,前面介紹過的 HD 3610 則是使用上一代的 RV630 核心。
要特別提一下的是,由於 Terascale 1.1 架構充其量只能算是過渡時期的權宜之計,因此在 HD 4000 系列當中是見不太到 R600 系與 RV600 系核心的,但唯一的例外出現在 HD 4580 上,這款產品基於 RV635 核心,運作時脈為 796/693 MHz,並且搭配 GDDR3 記憶體。
RV620 核心
Terascale 1.x 架構下的最後一款產品則是適用於低階入門市場的 RV620,與 RV635 的情況類似,RV620 基本上可以視為引入部分 RV670 新特性的 RV610,除此之外在帳面規格上與 RV610 是一模一樣的。
RV620 後來作為 HD 3400 系列與 HD 3500 系列推出,一共有四個型號,分別是較高階的 HD 3570 (796/495 MHz + DDR2)、 HD 3470 (800/950 MHz + GDDR3) 與較入門的 HD 3550 (594/396 MHz + DDR2)、HD 3450 (600/500 MHz + DDR2),至於 HD 3410 則是使用上一代的 RV610 核心。