搭配CDNA3架構、192GB記憶體，AMD新資料中心GPU來了

在2021年11月，AMD發表資料中心GPU產品Instinct MI200系列，時隔兩年之後的現在，他們終於推出新一代產品Instinct MI300X，採用CDNA3架構，導入先進的3D封裝與小晶片（chiplet）技術，而能提供更強大的運算效能。

相較於上一代產品MI250X，MI300X的運算單元數量增加幅度逼近40％（304個對上220個），記憶體容量達到1.5倍（192 GB HBM3對上128 GB HBM2e），記憶體最大頻寬為1.7倍（5.3 TB/s對上3.2 TB/s）；在資料型別上，MI300X可支援FP8與稀疏（sparsity）等數學計算，種種新增與強化特色，皆為了支撐AI與高效能運算類型的工作負載而來。

在產品的使用上，MI300X本身的外形採用開放運算計畫（OCP）訂定的加速器模組標準（OAM），能讓廠商將其置入既有支援這類外形GPU的伺服器配置當中，可加速這類AI硬體平臺的採用。

GPU架構重新設計，提供數量略勝一籌與記憶體配置彈性更大的GPU分割方式

根據AMD公布的CDNA3架構白皮書指出，此架構重新畫分處理器的運算、記憶體、通訊元件，並且橫跨了異質封裝，MI300X整合8個垂直堆疊的「加速器複合晶粒（XCD）」——採用台積電5奈米製程，以及4個「I/O晶粒（IOD）」——採用台積電6奈米製程，以此涵蓋整個系統基礎架構，所有元件全部連接AMD Infinity Fabric技術當中，可接取8個高頻寬記憶體堆疊。

AMD表示，以最底層的技術架構來看，GPU核心在存取向量與矩陣資料時的運算吞吐量，可透過原生支援稀疏資料（sparse data）而獲得強化；而從巨觀角度而言，這樣從本質重新思考實作方式，搭配重新設計的快取與記憶體階層，可隨著運算量的增加而溫和地擴展執行規模，同時也整合快取一致性予以優先看待。

以MI300X為例，這款獨立GPU聚焦加速運算的應用，本身結合8個XCD，對於機器學習處理的運算精度降低資料（reduced precision data），最大可提供3.4到6.8倍的吞吐量，若用於FP8型別的資料，最大可提供2.6 PFLOPS效能，若處理使用單精度與雙精度的典型高效能運算工作負載，吞吐量可增加1.7到3.4倍，單個GPU的FP64矩陣運算效能為163.4 TFLOPS。

就CDNA3的運算單元而言，最大的改善是在矩陣核心單元（Matrix Core Unit），著重AI與機器學習的應用——針對頂尖訓練與推論常用的既有資料型別，強化運算吞吐量，其中一個關鍵是使用更緊緻的資料型別，可一併節省記憶體與快取容量資源的使用，改善吞吐量的同時，也降低耗電量，舉例來說，若使用FP16與BF16，可獲得3倍的效能提升，若使用INT8，效能增長幅度達到6.8倍（相較於MI250X）。

AMD CDNA 3 Matrix Core在資料型別上，新支援最便於使用的TF32，以及透過最小規模提供最大效能的FP8，也支援FP8的兩種變體，一是5位元指數搭配2位元尾數的E5M2，用於AI訓練，一是4位元指數搭配3位元尾數，用於AI推論，兩者都列於OCP訂定的8位元浮點數規格。

在CDNA3架構中，與先前世代差異最大的部分在於運算單元外面的記憶體階層，經過重新設計架構之後，可充分運用多個異質小晶片的優勢，促成共同封裝在處理器的小晶片，能有一致的快取使用。

AMD認為，這樣的記憶體階層重新設計，真正開放了XCD內部的L2快取共享，而L2快取隨著位於IOD的最末階快取AMD Infinity Cache的加入，有了本質的變化，部分記憶體原生的功能被移除而提升到AMD Infinity Cache來執行——L2快取變成最低階的快取，會由硬體來自動維護一致性，在此同時，記憶體可在運算單元維持更豐富的資源混合，可將它們從一致性流量當中隔離，並且針對連至AMD Infinity Fabric網路的介面進行最佳化處理。

值得注意的是，AMD在CDNA3架構當中，也提供將單個GPU分割為多個虛擬GPU的功能，令人聯想到Nvidia的多執行個體GPU（MIG），目前已在Ampere架構與Hopper架構資料中心GPU產品提供（A100、H100最多可設置7個GPU執行個體，A30是4個）。

由於AMD Instinct MI300X包含8個XCD，這些硬體單元可各自分開、個別運作，形成多個虛擬GPU，最多能設置8塊區域，每一塊對應一個XCD，而且這裡也支援單根I/O虛擬化技術（SR-IOV），提供區分為多個虛擬功能（Virtual Functions，VF）的隔離執行機制，每個虛擬功能不能存取其他虛擬功能、實體功能（PF）的資訊或狀態。

MI300X內建的高頻寬記憶體也能根據GPU的分割而區隔，可設置為一大塊或4大塊，也能從GPU分割當中個別設定，AMD稱之為單體NUMA分割（NUMA partitions per socket，NPS），這些記憶體分區數量可等同或小於GPU分割數量。

標榜運算效能可超越競爭對手的產品

在大型語言模型（LLM）的使用上，AMD也特別強調MI300X的表現優於其他競爭產品。根據他們的內部測試，與市面上當紅的Nvidia H100 HGX整合多個資料中心GPU的平臺相比，同樣執行參數多達1,760億個的Bloom模型、使用DeepSpeed執行推論運算時，採用AMD Instinct Platform同樣匯集8個MI300X於一機的伺服器，吞吐量可達到1.6倍。若以單個GPU而言，要用於Llama2這類具有700億個參數大型語言模型的推論，AMD表示，MI300X是市場上唯一有辦法能承擔運算需求的產品。

基於這樣的配置與性能，他們認為MI300X可簡化企業級大型語言模型的運算系統部署，並且達到更理想的總體擁有成本。

關於有意採用的雲端服務業者方面，微軟在11月中舉行的Ignite年度用戶大會期間，搶先預告將推出採用這款GPU的運算服務ND MI300X v5；到了12月初AMD舉行的Advancing AI發表會，Oracle Cloud Infrastucture預告將會在裸機運算服務當中，推出搭配MI300X的解決方案，將支援該公司發展超級叢集網路OCI Supercluster，當中將配備超快速的RDMA網路技術，並表示他們的生成式AI服務很快就會支援MI300X。社群網站公司Meta也表示，他們將會擴展與AMD的合作，並在自家資料中心將MI300X用於AI推論的工作。

在伺服器廠商的部分，Dell、Supermicro、聯想也在這場活動前來站臺表達支持，並預告將推出搭配這款GPU的機型。

以Dell為例，旗下的6U、8-GPU伺服器PowerEdge XE9680，目前可搭配8個Nvidia頂級資料中心GPU（A100或H100），未來將提供搭配AMD Instinct MI300X的組態；

Supermicro將在H13世代的產品當中，推出6U、8-GPU伺服器AS-8125GS-TNMR2，搭配2顆AMD EPYC 9004處理器；

聯想表示，ThinkSystem平臺將會提供8-GPU伺服器，搭配2顆AMD EPYC處理器，預計2024年上半推出。

產品資訊

AMD Instinct MI300X
●原廠：AMD
●建議售價：廠商未提供
●外形：OAM
●晶片製程：微影製程TSMC 5nm FinFET，主動中介層晶粒製程TSMC 6nm FinFET
●I/O介面：PCIe 5.0 x16
●GPU架構：AMD CDNA3
●GPU核心：304個運算單元，19,456個串流處理器，1,216個矩陣核心
●GPU記憶體：192 GB HBM3
●記憶體最大頻寬：5.3 TB/s
●運算效能：FP64向量運算尖峰值為81.7 TFLOPS
●支援運算API：ROCm
●Infinity Fabric Links：7個
●耗電量：750瓦

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

GPU架構重新設計，提供數量略勝一籌與記憶體配置彈性更大的GPU分割方式

標榜運算效能可超越競爭對手的產品

熱門新聞