相隔一年,AMD再度於SC大會期間發表新一代資料中心GPU產品,名為Instinct MI200系列,導入了CDNA 2架構,可提供更強大的效能。
目前,Instinct MI200系列GPU分成兩款機型:Instinct MI250和Instinct MI250x,均採用OCP加速器模組(OCP Accelerator Module,OAM)的產品外形,未來AMD還會推出Instinct MI210,採用PCIe介面卡的產品外形。
在上市時程的規畫上,以Instinct MI250x為例,這款AMD譽為當今世界最快的高效能運算與人工智慧加速器,已在HPE Cray EX超級電腦系統當中搭配(Cray EX235a刀鋒模組的兩個運算節點,各自均可搭配4個Instinct MI200系列GPU);至於MI200系列的其他機型,預計在2022年第1季會有多家伺服器廠商搭配,像是華碩、Atos、Dell Technologies、技嘉、HPE、聯想、Penguin Computing,以及Supermicro。
根據AMD網站公布的伺服器搭配機型資訊來看,Atos的BullSequana X410-A5系列的2U1N2S、技嘉的G262-Z00,都將搭配4個OAM形式的MI200系列GPU;Dell PowerEdge R7525,應該會搭配3張PCIe形式的的MI200系列GPU。
關於Instinct MI200系列效能,AMD也公布多項實驗室理論預估數據,以雙精度FP64與FP32的矩陣運算來看,Instinct MI250x均可達到47.9 TFLOPS,可支援廣泛的高效能運算應用;若是半精度FP16運算,Instinct MI250x可達到383.0 TFLOPS,能強化機器學習的處理能力。
若對照同為資料中心頂級GPU的競爭產品Nvidia A100,其雙精度FP64運算效能為9.7 TFLOPS,AMD Instinct MI250x可提供4.9倍效能;A100的FP32運算效能為19.5 TFLOPS,Instinct MI250x可提供2.4倍效能;A100的FP16 Tensor Core運算效能為312 TFLOPS,而Instinct MI250x可提供1.2倍效能。
Instinct MI250x之所以能具備如此強大的效能,主要有幾個技術突破的因素促成。首先是受益於CDNA 2架構,
採用第二代的Matrix Core核心,可加速FP64與FP32的矩陣運算處理,對比前一代產品,也就是Instinct MI100,在FP64運算的最大效能上,可達到4倍的提升(11.54 TFLOPS vs. 47.9 TFLOPS)。
第二項關鍵是封裝方式,這款產品是首次運用2.5D維度的提高扇出橋接技術(Elevated Fanout Bridge,EFB),而實作的多顆晶粒GPU設計。相較於AMD前代資料中心GPU,Instinct MI200系列可容納更多核心,差距可達1.8倍(運算單元120個 vs. 220個,串流處理器7,680個 vs. 14,080),並且擁有更大的記憶體頻寬,提升幅度為2.7倍(1228.8 GB/s vs. 3276.8 GB/s)。
除了組成方式有突破,AMD Instinct MI200系列在繪圖運算晶粒(Graphics Compute Die,GCD)內部與外部、多個GPU之間、GPU到CPU之間的連結,均使用AMD最新發展的第三代Infinity Fabric技術,可藉此實現統合的CPU與GPU記憶體,以及記憶體資源的一致性,進而提高伺服器系統的吞吐量,促使CPU程式碼更容易連通GPU加速運算器的力量。
就Instinct MI200系列而言,最多可內建8個Infinity Fabric連結(Instinct MI250X內建8個,Instinct MI250內建6個)。
在開放式軟體平臺的部分,AMD也在此刻宣布ROCm(Radeon Open Compute Platform)推出5.0版,能透過Instinct MI200系列的搭配,支援先進的高效能運算與機器學習應用,AMD將擴大ROCm的普及度,提供更多類型的部署工具、程式庫,以及作業系統驅動程式與執行時期元件,能針對多種重大工作負載提供強大的效能。
產品資訊
AMD Instinct MI200系列
●原廠:AMD
●建議售價:廠商未提供
●機型名稱:MI250、MI250X
●外形:OAM
●晶片製程:TSMC 6nm FinFET
●I/O介面:PCIe 4.0 x16
●GPU架構:AMD CDNA2
●GPU核心:
MI250為208個運算單元,13,312個串流處理器
MI250X為220個運算單元,14,080個串流處理器
●GPU記憶體:128 GB HBM2e
●記憶體頻寬:3.2 TB/s
●運算效能:FP64向量運算尖峰值,MI250為45.3 TFLOPS,MI250X為47.9 TFLOPS
●支援運算API:OpenMP、OpenCL、HIP、AMD ROCm
●耗電量:500瓦、560瓦
【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】
熱門新聞
2024-12-27
2024-12-24
2024-12-22
2024-11-29
2024-12-20