Nvidia開源Blackwell平臺、伺服器元件設計給OCP

圖片來源:

Nvidia

在上周2024 OCP全球高峰會（Global Summit）Nvidia宣布將AI機櫃系統GB200 NVL72機櫃，以及液冷式運算與交換器匣設計，開源給開源運算專案（Open Compute Project，OCP）。

Nvidia很早就加入開源社群．如Linux基金會、Python軟體基金會及PyTorch基金會，也是OCP SAI（Switch Abstraction Interface，SAI）專案創始與治理董事會成員，同時也是SONIC（Software for Open Networking in the Cloud）的第二大貢獻者。Nvidia 2021年首度開源Triton推論伺服器，今年10月Nvidia則分別開源HGX H100基板及ConnectX-7乙太網路介面卡（NIC）頁獻給OCP，前者是雲端AI伺服器的業界標準，後者則是OCP網路介面卡（NIC）3.0的基礎設計。透過這次開源，將能讓社群開發人員開發以其GB200為基礎的OCP伺服器及應用。

GB200 NVL72是Nvidia AI整櫃伺服器系統，支援最多36個Grace CPU和72個Blackwell GPU，每GPU連線速度為1.8TB/s。Nvidia指出，在GB200 NVL72之前，在HGX H200基板上單一NVLink domain最多只能連結8顆GPU，每GPU網速為900GB/s。GB200 NVL72的出現，讓兆級參數模型如GPT-MoE-1.8T的訓練和推論速度分別大幅提升了4倍和30倍

Nvidia同時開源其設計的1RU小型運算及交換機匣（compute and switch tray），名為DC SCM（Data Center Secure Control Module），尺寸比現有業界標準小10%，還內建新式更小的匯流排連接器。運算匣部份則提供模組化外殼可適應不同I/O需求。改良的盲接液冷裝置及連接器

因應開源計畫，Nvidia提供了和電源與液冷設備業者Vertiv共同開發的GB200 NV72參考設計，提供給雲端業者及資料中心開發人員。Nvidia宣稱該參考設計能節省最多50%的實作時間，還減少電源模組所占空間，提升冷卻效率。為了解決120KW的冷卻電耗，這參考設計包含了Nvidia分流閥（manifold fittings）、浮動盲插（floating blind mates）等液冷技術。

除了Vertiv目前已有40多家資料中心基礎架構（data center infrastructure，DCI）已提供Blackwell為基礎的設計，包括鴻海、台達電、光寶、雲達、Schneider Electronic等，而OEM業者如HPE、Dell、美超微及臺灣廠商如雲達、華碩、技嘉、和碩、英業達、緯穎也都提供了Blackwell-based伺服器。

Nvidia透過開源其設計，有助於擴大Blackwell伺服器採用客戶群，推升晶片銷量。不過，媒體報導受產品瑕疵影響，原訂本季推出的Blackwell可能要延遲一季才能出貨，使供不應求問題雪上加霜。

熱門新聞