2011 x64處理器技術發展趨勢

處理器技術的進展已成為當代個人電腦與伺服器發展的重大關鍵，隨著x64架構、多核心處理器的普及，以及製程的持續改良，以伺服器平臺的選擇來說，不論從效能、省電、價格等觀點來採購時，都比過去有更多的選擇。

提升製程技術，選擇更多

2009年時，AMD在單路、2路與4路伺服器市場上，發布了代號為的Suzuka與Istanbul Opteron處理器。其中，Suzuka是針對1路，而Istanbul則是針對2路與4路伺服器。

Istanbul 是從上一代的Shanghai改進而來，最主要差異在於從4核心增加為6核心；處理器型號從2路的2300改為2400，4路的8300改為8400。在其他方面，它們都同樣採用45奈米製程，平均處理器功耗（ACP）同樣使用Socket F（1207腳位）插槽，L3快取記憶一樣是每個核心6MB，並且延續了處理器直接連結架構（Direct Connect Architecture）。

而針對單路伺服器，型號為1300的Suzuka處理器，與Istanbul同樣是45奈米製程、內建6MB的L3快取記憶體與75瓦ACP，不過核心數只有4核心，且使用Socket AM2+的處理器插槽。

而目前AMD最新的伺服器處理器，將原本Suzuka與Istanbul改為Lisbon的4100系列，以及Magny-Cours的6100系列處理器。

Lisbon 是針對1路與2路伺服器所推出的處理器，與前一代的Suzuka及Istanbul一樣，都是45奈米製程，不過核心數可分為4核心與6核心兩種，每核心內建6MB L3快取記憶體，支援雙通道的UDIMM與RDIMM DDR3記憶體，Socket改為新的C32處理器插槽。而Magny-Cours則是內建8核或12核心，針對2路與4路伺服器的處理器，除了擁有大量的核心數目之外，這系列處理器還支援目前最多的記憶體4通道，並改用G34處理器插槽。

在2011年，AMD將推出下一代新處理器，代號分別是12核與16核的Interlagos，以及6核與8核心的Valencia。這兩個系列都採用AMD新的Bulldozer架構，透過執行緒的增加，強化處理器運算速度，且L3快取記憶體增加為12MB，且Interlagos將延續使用與Magny-Cours相同的主機板平臺：Maranello；而Valencia則與Lisbon同樣採用San Marino的主機板平臺。

從Istanbul到Magny-Cours的變化，我們可以看出處理器的核心數目增加之外，製程技術也不斷加強，從45奈米提升到32奈米，而且在下一代的處理器中，還採用新的Bulldozer架構，在AMD的處理器中，首次加入了多執行緒強化處理器運算速度。

而Intel在今年初發布了採用32奈米製程，名為Westmere系列的處理器，同樣承襲Nehalem的主要架構。

由於製程技術的提升，讓相同大小的晶片內可置入更多的處理器核心，因此Westmere系列中，就有6核心的處理器，例如Xeon W3680、E5650與X5680等。而且這系列處理器內建的快取記憶體，比前一代Nehalem內建的8MB L3還多，增加到12MB的L3快取記憶體，並且全面支援DDR3記憶體，最高可支援的記憶體總數，則是比前一代多出一倍，高達288GB記憶體。

受到製程技術提升的影響，我們還可看到另一個關鍵的改進，那就是耗電量。我們以Intel 45奈米製程的5500系列，與32奈米製程的5600系列的規格相比，就可看出新一代的製程技術帶來的節電效果。

去年製作伺服器採購特輯時，所測試的Xeon E5520處理器，與今年新一代的E5620相比，雖然兩個處理器的熱設計功耗（TDP）都是80瓦，且核心與執行緒數量如出一轍，但是E5620的時脈比E5520高出一些，而且如前面所說加強的技術，以及新增的功能，都讓相同熱功耗設計的處理器，呈現完全不同的效能。因此新的製程技術，讓處理器在相同的耗電量下，可達到更高的效能。

不過AMD今年仍使用45奈米製程，預計明年的Interlagos與Valencia將會使用32奈米製程。

以多核心及執行緒提升運算效能

觀察近來AMD處理器的發展，我們可以發現AMD與Intel的處理器，多工的處理方式不盡相同。例如，Intel發展的多執行緒架構（Hyper- Threading），在一顆處理器內擁有4核、或是最新的Xeon 5600系列的6核心，其中每個核心都有2個執行緒，也就是每顆處理器都有8個或12個執行緒；而AMD的Opteron則是朝實體核心數量發展，例如目前研發代號為Magny-Cours的6100系列處理器，就內建實體6核心，而針對1路伺服器的4100系列處理器，則內建有4個實體核心。而且，在下一代的Valencia與Magny-Cours，則讓核心數增加到6至8核心，以及8至12核心。

AMD不斷的在處理器內增加更多的核心，原因是它們認為實體核心的運算效能，會比使用虛擬的執行緒的運算效能更佳。

不過他們在2011年即將發表的Bulldozer架構處理器，在增加核心數的同時，還結合了2個實體核心，讓平行運算的過程中，可使用兩個實體核心共同運算，而且它們的L2與L3快取記憶體也是共享，讓平行運算架構可用兩個核心運算。

依照Intel的標準來看，包含2個核心的Bulldozer只能算是擁有雙執行緒的單核心處理器，例如內建16核心的Interlagos處理器，對Intel來說，就是8核心、16執行緒的處理器。

每個Bulldozer除了擁有2個核心所組成，可共同運算的雙執行緒模組之外，還因為每個核心都擁有由4條管線（Pipeline）所組成的整數運算單元，因此Bulldozer中，都有2個由4條管線所組成的整數運算單元，另外還有2個128位元，可合併為256位元的浮點運算單元。再加上共用的L2 快取記憶體，因此Bulldozer之中的每個整數運算單元會被當作一個物理核心，就如同Intel的超執行緒一般。

在Intel方面，雖然使用了超執行緒的技術，但是在實體核心數目的發展也沒有停下腳步，在去年推出新一代的Nehalem架構處理器，採用45奈米製程，並且依照單路、2路與4路伺服器等不同市場，分別推出3500、5500與7500系列處理器。

而在今年初，Intel又進一步推出新一代的3600與5600系列，採用32奈米的製程技術，將原本5500系列內建的核心數目，增加到6核心，執行緒也增加為24執行緒。

並且延續或增進上一代Nehalem系列中的多種規格與技術，例如5500系列支援記憶體總數為144GB，而Westmere的5600系列則增加一倍，達到288GB；另外還加大了L3快取記憶體，從8MB提升到12MB。而之前每個處理器中內建的Intel超執行緒（Hyper-Threading）與Turbo Boost超頻技術等，也是一樣都不少。

超執行緒技術，只要應用程式有支援，就可讓單一處理器核心使用類似虛擬化的方式，讓處理器同時執行多個平行運算工作。

另一個超頻技術Turbo Boost與超執行緒的平行運算不一樣的地方，在於Turbo Boost是針對無法同時運算的序列運算。它的加速運算方法，是降低4核心處理器之中的兩個核心時脈，也就是降低它們的電壓，將另外兩個核心電壓與時脈加高，藉由時脈速度的提高，加速序列運算的速度。而且在增加時脈的時候，Intel的處理器還會主動偵測目前電壓與時脈速度，並且評估是否可以讓時脈速度再往上提升，或是應減慢時脈以保護處理器。

藉由這種自動切換運算需求的超執行緒與Turbo Boost技術，Intel的目的就是讓處理器，變的更加聰明，會因應需求而切換功能。

直接溝通架構（Direct Connect Architecture）

在 AMD的Istanbul架構中，多路伺服器之間的連結，是採用AMD的直接溝通架構1.0，可讓處理器之間直接溝通，且可以降低記憶體與處理器的I/O 延遲，並加速這些元件之間的傳輸速度。不過以4路處理器來看，採用1.0的直接溝通架構時，每顆處理器都只能與相連的另外2個處理器做溝通。因此，今年 AMD更新的直接溝通架構2.0，讓所有處理器之間都可做溝通，也就是說，4路伺服器內部的每顆處理器，都可與另外3個處理器直接做溝通。而且，1.0的直接溝通架構最多僅能支援6核心處理器，而2.0則可支援到16核心。

而且，新一代的直接溝通架構還加強了處理器之間的傳輸速度，從原本的，4.8GT/s增進到6.4GT/s；在記憶體方面，每顆處理器可支援的記憶體插槽數量，從1.0的8 DIMM增加到12 DIMM，並且首度支援了DDR3記憶體，同時支援UDIMM與RDIMM，在記憶體搭配的選擇上更豐富。

在多路伺服器的架構上，Intel的7500系列處理器擴展性也有改善，從可以2顆處理器串接，共用32組記憶體插槽，組成一個2路模組，並且可持續擴展處理器數量到最多256顆7500系列處理器。這樣的擴充模式可透過多顆處理器來分擔運算負荷，加速整體運算效能。

新增指令集

指令集，就是將原本需要透過多行軟體指令解碼的動作，改由硬體解碼。而AMD的Interlagos所採用的Bulldozer架構，將會相容於目前 Intel處理器已經支援的指令集，例如SSE4.1、SSE4.2、AES與CLMUL等，而且也把SSE5的指令集內建在其中，不過他們將這個指令集拆為XOP、FMA4與CVT16等3個指令集，並且相容於Intel的AVX指令集。

在Intel方面，Xeon系列全部處理器都支援 MMX、SSE、SSE2等指令集，以及Intel進階加密標準新指令（AES-NI），這個指令集之中包含7種新的指令，加速資料的加密與解密，讓資料在存入時就以加密的形式儲存，確保資料的安全性。另外，在下一代的Sandy Bridge系列中，還會新增針對密集浮點運算所制定的指令集：先進向量擴充指令集（AVX）。

由以上這些功能，我們可以看出，結合超執行緒與Turbo Boost超頻的技術，讓Intel處理器在面對不同的運算資料時，都可切換適當的模式，加速這些序列運算，或是平行運算等不同運算模式。另外，在加上越來越多的指令集內建在其中，讓許多常見的運算功能都能夠透過指令集運算，讓處理器核心不用花費太多時間在瑣碎的運算中。

越來越聰明，與計算能力越來越強的處理器

將來的處理器，勢必在效能上會越來越強，問題在於，AMD與Intel要如何達到這樣的目標？

目前，我們可以看出AMD持續的朝實體核心的數目發展，因為他們認為實體核心的運算效能，比虛擬化的執行緒更佳，因此在處理器的發展上，持續增加實體核心數量，並且加強多路伺服器處理器之間的溝通，讓處理器在各自擁有多核心的同時，還可共享資源，讓多處理器架構的系統在運作效能上，就像是一個擁有數十個核心的處理器一般。

另外，在個人端的處理器，他們也開始結合繪圖晶片驚人的平行運算效能，將平行運算的內容傳送給繪圖晶片（GPU），並透過可程式控制GPU內部的多個平行運算核心及記憶體，用來處理非圖形的平行運算，所組成的新組態：通用型GPU（General Purpose GPU，GPGPU），讓原本針對圖形運算的繪圖晶片開始分擔處理器的運算，甚至更進一步的把繪圖晶片整合在處理器內部，變成Accelerated Processing Unit（APU），也就是說，將來的APU內部，將包含一個運算核心、一個可程式化向量運算引擎、記憶體控制器、I/O控制器、視訊解碼器以及匯流排介面等多種功能與控制器。

雖然，目前這樣的處理器僅出現在個人端，不過我們可以預見伺服器的處理器也將會整合這樣的設計，針對不同的運算內容，使用針對純量的運算核心，或是使用向量的繪圖核心作不同的運算，藉此提高整體的運算效能。

而Intel方面，將持續發展超執行緒與Turbo Boost，兩種針對平行運算與序列運算的技術。

雖然兩家處理器廠商的目的都是相同的，那就是提供更高的運算速度與效能，但是Intel發展的方向與AMD卻不大一樣，因為他們的方式，是讓處理器能自動選擇與切換運算模式。

以當前Intel的Xeon處理器而言，內建了針對序列運算而提升時脈速度的Turbo Boost，以及平行運算的超執行緒技術，讓Intel的處理器在面對各種資料類型時，都能切換運算模式，加速各種運算的速度，讓系統的效能提升。另外，日益增進的製程技術加上省電技術，讓處理器可減少耗電量，或是在相同耗電量提供更佳的運算效能。

就像今年Intel推出的32奈米Xeon Westmere 5600系列處理器，除了部分產品核心增加為6核心之外，其他同系列處理器雖然核心與執行緒的數量，與前一代的Xeon 5500系列一樣，維持在4核心8執行緒，但是時脈速度略微提高，讓處理器在相同的耗電量之下，擁有更高的運算速度。

AMD Opteron處理器發展藍圖

Intel Xeon處理器發展藍圖

Intel Turbo Boost技術的工作原理

AMD Direct Connect Architecture架構的比較

AMD Bulldozer的處理器核心架構

相關報導請參考「徹底掌握新一代的x64伺服器平臺」

熱門新聞