導入二代CDNA與2.5D EFB封裝，AMD推出新資料中心GPU

相隔一年，AMD再度於SC大會期間發表新一代資料中心GPU產品，名為Instinct MI200系列，導入了CDNA 2架構，可提供更強大的效能。

目前，Instinct MI200系列GPU分成兩款機型：Instinct MI250和Instinct MI250x，均採用OCP加速器模組（OCP Accelerator Module，OAM）的產品外形，未來AMD還會推出Instinct MI210，採用PCIe介面卡的產品外形。

在上市時程的規畫上，以Instinct MI250x為例，這款AMD譽為當今世界最快的高效能運算與人工智慧加速器，已在HPE Cray EX超級電腦系統當中搭配（Cray EX235a刀鋒模組的兩個運算節點，各自均可搭配4個Instinct MI200系列GPU）；至於MI200系列的其他機型，預計在2022年第1季會有多家伺服器廠商搭配，像是華碩、Atos、Dell Technologies、技嘉、HPE、聯想、Penguin Computing，以及Supermicro。

根據AMD網站公布的伺服器搭配機型資訊來看，Atos的BullSequana X410-A5系列的2U1N2S、技嘉的G262-Z00，都將搭配4個OAM形式的MI200系列GPU；Dell PowerEdge R7525，應該會搭配3張PCIe形式的的MI200系列GPU。

關於Instinct MI200系列效能，AMD也公布多項實驗室理論預估數據，以雙精度FP64與FP32的矩陣運算來看，Instinct MI250x均可達到47.9 TFLOPS，可支援廣泛的高效能運算應用；若是半精度FP16運算，Instinct MI250x可達到383.0 TFLOPS，能強化機器學習的處理能力。

若對照同為資料中心頂級GPU的競爭產品Nvidia A100，其雙精度FP64運算效能為9.7 TFLOPS，AMD Instinct MI250x可提供4.9倍效能；A100的FP32運算效能為19.5 TFLOPS，Instinct MI250x可提供2.4倍效能；A100的FP16 Tensor Core運算效能為312 TFLOPS，而Instinct MI250x可提供1.2倍效能。

Instinct MI250x之所以能具備如此強大的效能，主要有幾個技術突破的因素促成。首先是受益於CDNA 2架構，

採用第二代的Matrix Core核心，可加速FP64與FP32的矩陣運算處理，對比前一代產品，也就是Instinct MI100，在FP64運算的最大效能上，可達到4倍的提升（11.54 TFLOPS vs. 47.9 TFLOPS）。

第二項關鍵是封裝方式，這款產品是首次運用2.5D維度的提高扇出橋接技術（Elevated Fanout Bridge，EFB），而實作的多顆晶粒GPU設計。相較於AMD前代資料中心GPU，Instinct MI200系列可容納更多核心，差距可達1.8倍（運算單元120個 vs. 220個，串流處理器7,680個 vs. 14,080），並且擁有更大的記憶體頻寬，提升幅度為2.7倍（1228.8 GB/s vs. 3276.8 GB/s）。

除了組成方式有突破，AMD Instinct MI200系列在繪圖運算晶粒（Graphics Compute Die，GCD）內部與外部、多個GPU之間、GPU到CPU之間的連結，均使用AMD最新發展的第三代Infinity Fabric技術，可藉此實現統合的CPU與GPU記憶體，以及記憶體資源的一致性，進而提高伺服器系統的吞吐量，促使CPU程式碼更容易連通GPU加速運算器的力量。

就Instinct MI200系列而言，最多可內建8個Infinity Fabric連結（Instinct MI250X內建8個，Instinct MI250內建6個）。

在開放式軟體平臺的部分，AMD也在此刻宣布ROCm（Radeon Open Compute Platform）推出5.0版，能透過Instinct MI200系列的搭配，支援先進的高效能運算與機器學習應用，AMD將擴大ROCm的普及度，提供更多類型的部署工具、程式庫，以及作業系統驅動程式與執行時期元件，能針對多種重大工作負載提供強大的效能。

產品資訊

AMD Instinct MI200系列
●原廠：AMD
●建議售價：廠商未提供
●機型名稱：MI250、MI250X
●外形：OAM
●晶片製程：TSMC 6nm FinFET
●I/O介面：PCIe 4.0 x16
●GPU架構：AMD CDNA2
●GPU核心：
MI250為208個運算單元，13,312個串流處理器
MI250X為220個運算單元，14,080個串流處理器
●GPU記憶體：128 GB HBM2e
●記憶體頻寬：3.2 TB/s
●運算效能：FP64向量運算尖峰值，MI250為45.3 TFLOPS，MI250X為47.9 TFLOPS
●支援運算API：OpenMP、OpenCL、HIP、AMD ROCm
●耗電量：500瓦、560瓦

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

熱門新聞