Milan-X來了！AMD第三代EPYC伺服器處理器擴增4款機型，提供超大容量的L3快取

去年上半，同為x86架構的兩大伺服器處理器平臺，陸續推出新一代產品，例如，3月15日登場的AMD第三代EPYC系列／7003系列（代號為Milan），4月6日發表的英特爾第三代Xeon Scalable系列（代號為Ice Lake）。

然而，從下半年起，又陸續掀起幾波關於後續產品的戰火，例如，英特爾在8月舉行的年度架構日、10月的Intel Innovation大會、11月的SC美國超級電腦大會，以至今年2月的英特爾投資大會，該公司均針對再下一代的伺服器處理器（代號為Sapphire Rapids），揭露了更多技術細節。

這幾年在伺服器處理器市占節節高升的AMD，則顯得保守許多，僅於去年11月SC大會前夕舉行的線上發表會AMD Accelerated Data Center Premiere，預告將推出配備3D V-Cache技術的EPYC 7003處理器（代號為Milan-X），

以及2022年發表下一代EPYC處理器（代號為Genoa），屆時將導入Zen4架構、5奈米製程，最多可提供96顆核心，並支援DDR5記憶體，以及PCIe 5.0與CXL等兩種I/O介面。

到了今年3月底，他們宣布，代號為Milan-X、採用3D V-Cache技術的第3代EPYC處理器正式推出，當中包含了4款機型：7373X、7473X、7573X、7773X，分別對應16、24、32、64顆運算核心的提供，而且全都配備多達768 MB的L3快取記憶體。相較之下，現行EPYC 7003系列處理器的L3快取記憶體組態有3種，分別是：64 MB、128 MB、256 MB。

由於提供更大容量的L3快取記憶體，這4款新登場的EPYC 7003X系列處理器的定位，AMD認為，更適合執行工業運算類型（Technical Computing）的工作負載。

而這裡所謂的工業運算，主要是指下列應用類型，像是：電子設計自動化（Electronic Design Automation，EDA）、計算流體動力學（Computational Fluid Dynamics，CFD）、有限元素分析（Finite Element Analysis，FEA）、震波層析成像（Seismic Tomography）、氣象預測、量子力學、氣候研究、分子模擬。在這樣的應用場景之下，若以搭配既有EPYC 7003處理器的系統作為比較基準（16核心EPYC 75F3），最新發表的Milan-X可獲得66％的效能提升幅度（16核心EPYC 75F3X）。

採用3D裸晶堆疊技術，將L3快取容量垂直擴增至3倍

採用3D V-Cache技術的第3代EPYC處理器的推出，象徵AMD將垂直堆疊裸晶技術正式引進伺服器處理器。顧名思義，3D V-Cache是指透過3D垂直堆疊（3D Vertical stacking）的方式，擴充CPU當中的L3快取記憶體容量，以最新推出的EPYC 7003X這批主打大量快取的處理器機型為例，L3快取的容量可提升至既有7003系列處理器的3倍。

剖析EPYC 7003系列處理器的架構，目前多數型號的產品都包含8個核心複合體裸晶（Core Complex Die，CCD），若單就每個核心複合體（Core Complex，CCX）的組成而言，有8個Zen3核心運算單元、8個最大容量為4 MB的L2快取記憶體，以及共用的L3快取記憶體──先前發表的EPYC 7003系列處理器，此處的配置是32 MB，最新登場的EPYC 7003X系列處理器，因為導入了3D垂直堆疊的設計，而能將這裡的L3快取容量擴充至原來的3倍，成為96 MB，AMD表示，基於這樣的配置，意味著任何單一核心，不僅平均可使用的L3快取容量為12 MB，同時，也能完整存取到96 MB。

所以，若是從整顆處理器包含8個CCD的角度來看，此時L3快取記憶體的總容量就成為768 MB。

之所以能夠在此實現這樣的邏輯堆疊技術，AMD在今年1月發布了一篇關於進階封裝技術的部落格文章，針對他們與台積電合作、於去年臺北國際電腦展所提到的3D小晶片（Chiplet）技術，提出了更詳細的說明。

就成效來說，AMD表示，他們採用業界首創的混成黏接技術（hybrid bond），再加上矽穿孔（Through-Silicon-Vias，TSVs）的方法，而能將處理器的互連密度大幅提升──若以AMD自家發展的2D Chiplet技術為基準，可達到200倍以上；若以既有英特爾3D堆疊解決方案為基準（3D stacked micro-bump），可達到15倍以上。如此一來，就能以更有效率、更密集的方式，來整合AMD的硬體智慧財產。

如何實現這些作法？AMD主要是透過銅對銅（copper-to-copper）的直接黏結，構成了裸晶對裸晶（die-to-die）的介面，而不用任何類型的銲錫凸塊（solder bumps）來實現相關的設計，因此，可大幅改善電晶體密度與互連間距，超越其他的3D設計方式，進而成為具有更大使用彈性的矽晶片堆疊技術。

而在採用更小型的矽穿孔與銅對銅的直接連結之後，處理器對於每個訊號的處理電力大幅減少，若以採用其他微型3D凸塊設計方式而成的處理器為基準（英特爾Foveros），AMD提出的新作法，其單位耗電量不到三分之一，同時，SRAM至處理器CCD之間的總存取頻寬，也能因此提升至2 TB/s。

換言之，AMD認為，3D Chiplet技術能在最少的矽晶片面積上，提供最高的頻寬，而且，這樣的架構也能促成理想的散熱表現。

回溯技術源流，他們表示，AMD處理器採用的這些3D設計架構，有賴於台積電開發的混成黏接製程與3D Fabric技術。

適合特定領域的運算應用，能帶來相當顯著的效能提升

在產品定位上，由於EPYC 7003X系列處理器具有相當大的L3快取容量，針對特定應用領域，會有更突出的運算效能表現。

哪些工作負載適合這系列處理器？AMD列出3大類型，首先，是對於L3快取容量大小較敏感的應用型態；第二是對於大容量L3快取沒有命中與否考量的應用型態，像是：規模經常太大到超過大容量L3快取的資料集；第三是對於大容量L3快取沒有衝突與否考量的應用型態，例如，拖拉至快取的資料的彼此關聯性很低。

相反地，面對下列這3大類型應用，AMD認為，相對於EPYC 7003系列而言，EPYC 7003X系列較無明顯助益。首先，是L3快取命中率接近零的工作負載；第二，對於大容量L3快取沒有一致性考量的應用型態，像是在多顆核心之間高度共用的資料；第三是CPU密集型工作負載、卻只是串流資料，或只用一次、而非反覆地運作的應用。

關於運算效能的表現上，AMD也公布EPYC 7003X系列處理器在工業運算多種領域當中的改善幅度。

以電子設計自動化為例，同為16核心的7373X對上73F3，執行Synopsys的半導體模擬與驗證軟體VCS時，在模擬速度上，領先幅度為66%；

在計算流體動力學應用中，同為32核心的AMD EPYC 7573X對上英特爾40核心Xeon Platinum 8362，均以2路架構來執行Ansys的渦輪機應用軟體CFX時，每天平均解決的問題數量比例高出88%；

若是有限元素分析的應用，2顆AMD 64核心的EPYC 7773X對上2顆英特爾40核心Xeon Platinum 8380，執行Altair的產品效能評估軟體 Radioss模擬應用程式時，平均效能領先44%。

採用3D裸晶堆疊技術，將L3快取容量垂直擴增至3倍

適合特定領域的運算應用，能帶來相當顯著的效能提升

熱門新聞