圖片來源: 

Nvidia

在上周2024 OCP全球高峰會(Global Summit)Nvidia宣布將AI機櫃系統GB200 NVL72機櫃,以及液冷式運算與交換器匣設計,開源給開源運算專案(Open Compute Project,OCP)。

Nvidia很早就加入開源社群.如Linux基金會、Python軟體基金會及PyTorch基金會,也是OCP SAI(Switch Abstraction Interface,SAI)專案創始與治理董事會成員,同時也是SONIC(Software for Open Networking in the Cloud)的第二大貢獻者。Nvidia 2021年首度開源Triton推論伺服器,今年10月Nvidia則分別開源HGX H100基板及ConnectX-7乙太網路介面卡(NIC)頁獻給OCP,前者是雲端AI伺服器的業界標準,後者則是OCP網路介面卡(NIC)3.0的基礎設計。透過這次開源,將能讓社群開發人員開發以其GB200為基礎的OCP伺服器及應用。

GB200 NVL72是Nvidia AI整櫃伺服器系統,支援最多36個Grace CPU和72個Blackwell GPU,每GPU連線速度為1.8TB/s。Nvidia指出,在GB200 NVL72之前,在HGX H200基板上單一NVLink domain最多只能連結8顆GPU,每GPU網速為900GB/s。GB200 NVL72的出現,讓兆級參數模型如GPT-MoE-1.8T的訓練和推論速度分別大幅提升了4倍和30倍

Nvidia同時開源其設計的1RU小型運算及交換機匣(compute and switch tray),名為DC SCM(Data Center Secure Control Module),尺寸比現有業界標準小10%,還內建新式更小的匯流排連接器。運算匣部份則提供模組化外殼可適應不同I/O需求。改良的盲接液冷裝置及連接器

因應開源計畫,Nvidia提供了和電源與液冷設備業者Vertiv共同開發的GB200 NV72參考設計,提供給雲端業者及資料中心開發人員。Nvidia宣稱該參考設計能節省最多50%的實作時間,還減少電源模組所占空間,提升冷卻效率。為了解決120KW的冷卻電耗,這參考設計包含了Nvidia分流閥(manifold fittings)、浮動盲插(floating blind mates)等液冷技術。

除了Vertiv目前已有40多家資料中心基礎架構(data center infrastructure,DCI)已提供Blackwell為基礎的設計,包括鴻海、台達電、光寶、雲達、Schneider Electronic等,而OEM業者如HPE、Dell、美超微及臺灣廠商如雲達、華碩、技嘉、和碩、英業達、緯穎也都提供了Blackwell-based伺服器。

Nvidia透過開源其設計,有助於擴大Blackwell伺服器採用客戶群,推升晶片銷量。不過,媒體報導受產品瑕疵影響,原訂本季推出的Blackwell可能要延遲一季才能出貨,使供不應求問題雪上加霜。

熱門新聞

Advertisement