想要透過公有雲業者租用Nvidia H100的GPU加速運算服務,目前已有多種選擇,回顧先前的發展,最早向市場宣告提供這類解決方案的廠商,其實是微軟Azure,目前已經能提供3個GPU加速虛擬機器服務,分別是ND H100 v5、NC H100 v5(NCads H100 v5)、NCC H100 v5(NCCads H100 v5)。

早在2022年11月的全球超級電腦大會SC22,他們和Nvidia宣布合作建造基於公有雲服務的AI超級電腦,當中包含ND系列與NC系列雲端執行個體服務,因應分散式AI推論與AI訓練需求,並且結合Nvidia發展的進階AI軟硬體堆疊,包含數萬個資料中心GPU產品A100與H100、400 Gb InfiniBand網路交換器Quantum-2,以及AI Enterprise企業級軟體套餐。

隔年3月Nvidia舉行的GTC 2023大會,微軟發表第一款採用Nvidia H100的GPU最佳化執行個體服務,名為ND H100 v5系列,開放用戶登記參與預覽測試

  

縱觀Azure的GPU加速虛擬機器產品線,ND系列適用的工作負載類型,涵蓋大量記憶體的運算密集用、圖形密集型應用,以及虛擬化應用。的確!在Azure陸續推出的3款Nvidia H100 GPU雲端虛擬機器當中,記憶體容量就是最大區別,像是後來登場的NCads H100 v5為320 GiB或640 GiB。NCCads H100 v5為320 GiB,而最先發表的ND H100 v5配置1,900 GiB。

就硬體配置而言,ND H100 v5導入多種技術,包括:GPU提供8個Nvidia H100,而且,GPU之間透過新一代NVSwitch與NVLink 4.0連接,透過這些內部I/O技術,每一臺虛擬機器對於GPU存取的雙向頻寬可達到3.6 TB/s;外部網路存取技術方面,搭配Quantum-2交換器與ConnectX-7網路卡,建構扁平式網路架構,使每一臺虛擬機器的網路頻寬可達到3.2 Tb/s;CPU運算平臺的部分,搭配英特爾第四代Xeon Scalable處理器、透過PCIe 5.0介面存取GPU(連接每個GPU的頻寬為64 GB/s),以及16個通道的DDR5-4800記憶體。

同年6月公開的AI訓練測試結果MLPerf Training v3.0,微軟提交兩項Azure ND H100 v5系列預覽版的效能測試結果。8月初舉行的SIGGRAPH 2023大會期間,Azure ND H100 v5系列宣告正式上線,微軟與Nvidia表示,相較於上一代執行個體服務支援FP16的浮點運算資料類型,由於Nvidia H100額外支援FP8,在矩陣乘法運算處理的速度上,可增加至6倍;若用於Bloom 175B這類大型語言模型的推論,可達到2倍的速度提升。

後續MLPerf Inference v3.1在9月公布,以及MLPerf Training v3.1在11月揭露,ND H100 v5系列都是Azure唯一提交AI效能測試結果的解決方案,微軟趁機展示其能耐。

他們表示,若用於GPT-3 175B模型的訓練,在設置1,344臺Azure ND H100 v5虛擬機器,也就是10,752個Nvidia H100 GPU的組態之下,僅需3.92分鐘就能完成(編號3.1-2002的測試結果);而在先前MLPerf Training v3.0揭露的結果,微軟設置448臺Azure ND H100 v5虛擬機器,也就是3,584個Nvidia H100 GPU的組態,耗費10.9分鐘完成(編號3.0-2003的測試結果)。

基於MLPerf Training v3.1,微軟也與Nvidia提交的組態相近GPU裸機伺服器效能結果(編號3.1-2002對上編號3.1-2007)進行比較,強調兩者的效能差異很小,後者僅領先2%。

若用於AI推論,Azure ND H100 v5的表現也不輸實體伺服器的性能。微軟引用MLPerf Inference v3.1的GPT-J推論測試效能結果佐證,他們表示,若以Nvidia、Oracle各自提交的裸機伺服器(編號3.1-0107、3.1-0121)為基準,Azure ND H100 v5(編號3.1-0003)的相對效能為0.99倍至1.05倍。

產品資訊

微軟Azure ND H100 v5系列
●原廠:微軟
●建議售價:美國西部區域每月93,305.68美元
●執行個體服務選擇:ND96isr_H100_v5
●搭配處理器:英特爾第四代Xeon Scalable(Sapphire Rapids)
●搭配GPU:Nvidia H100 80 GB
●運算資源配置:
96顆vCPU、1900 GiB記憶體、32臺資料硬碟、8個GPU、GPU記憶體80 GiB、網路介面8個

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement