Nvidia新世代資料中心GPU雲端先行

在2024年6月台北國際電腦展，GPU大廠Nvidia偕同多家伺服器廠商，展出整櫃型AI伺服器GB200 NVL72，吸引多家公有雲業者與大型科技公司採購建置，然而，在同年7月下半、11月下半，有媒體報導可能有過熱問題的傳聞，令外界擔憂影響出貨。當時陸續有多家廠商力挺，例如，鴻海、廣達均一再強調不受影響； Dell創辦人暨執行長Michael Dell 11月18日宣布，全球第一臺GB200 NVL72正式出貨。

而對於採購這些硬體設備的公有雲業者而言，他們如何看待與Nvidia的合作？

微軟2024年10月8日表示，Azure會是首家用GB200的AI伺服器營運Blackwell的雲業者，11月19日宣布將推出基於GB200 NVL72的雲端虛擬機器服務，名為Azure ND GB200 V6系列，開放內部預覽測試，2025年1月8日微軟執行長Satya Nadella表示，他們的第一座NVL72叢集系統已經在Azure環境運作。

Google Cloud在2024年10月16日表示，他們正與Nvidia合作組建GB200 NVL機櫃，秀出機櫃設置於資料中心的照片；Oracle 9月預告將建造雲端服務領域最大的AI超級電腦，在這座OCI Supercluster，最多供應131,072個Nvidia Blackwell GPU，運算效能規模達2.4 zettaFLOPS，11月20日他們宣布在全球雲端區域中心，率先啟用第一座有完整配備的Nvidia GB200 NVL72機櫃，支援客戶使用。

至於AWS，2023年11月底與Nvidia宣布合作發展全球最快GPU架構AI超級電腦Project Ceiba；2024年3月Nvidia表示，這套AI超級電腦將以Nvidia GB200 NVL72組建而成，將配置20,736個B200 GPU與10,368個Grace CPU，AI效能達414 EFLOPS；到了12月，AWS預告2025年將推出採用Blackwell的執行個體服務P6，相較現行GPU，速度增2.5倍。

Nvidia面對市場強烈期待，以及每隔一段時間的出貨進度質疑聲浪，他們如何回應？

今年1月6日舉行的CES美國消費電子展期間，Nvidia創辦人暨執行長黃仁勳在開幕主題演講強調，Blackwell已全面量產，每家雲端服務商都有這樣的系統，而且正在使用，目前有15家系統製造商推出近200款機型與組態，當中有採用液冷或氣冷的系統，基於x86或Arm架構的系統，以及兩臺GB200 NVL36、1臺GB200 NVL72，這些會在45座工廠生產。

正當大家以為新世代GPU整櫃型系統的生產製造進度符合預期，並且熱烈討論Nvidia本次在CES發表多項產品與技術的背後意義與趨勢之際，沒想到，1月13日系統過熱傳聞再度出現，引發全球關切。到了1月16日，黃仁勳來臺參加封測廠商矽品精密的潭科廠啟用揭牌儀式，媒體追問Blackwell現況。

他表示，Blackwell採用CoWoS-L封裝，將兩個非常大的裸晶（die）連接成1個大晶片，Nvidia現行Hopper架構GPU採用CoWoS-S封裝，他們會逐漸轉移、增加CoWoS-L採用，這麼做並非為了減少容量，而是增加容量。

關於散熱，黃仁勳強調Blackwell是非常複雜的技術，是全球有史以來製作方式最複雜的電腦，每一臺Blackwell系統重達3千磅，裡面總共包含60萬個元件，數量相當於一輛汽車的30倍，接著他重申Blackwell已進入全面生產狀態，這麼複雜的產品在工程的初期階段面臨許多挑戰，其實是相當正常的，而且他們已經開始將相關產品出貨到全世界。

面對相關的爭議與傳聞，Blackwell平臺的發展、部署，以及後續推廣，顯然還需要持續克服技術、應用、商業模式等層面的挑戰，這次要處理的硬體環節相當廣泛，包含GPU的升級、CPU與GPU的融合，從一臺臺伺服器機架的設置躍升到單座與多座機櫃，散熱方式也從發展多年、成熟的氣冷，改為過去只在特定環境使用的液冷，這些議題都要在有限的時間之內盡速解決。

一旦成功，IT產業勢必能夠以更順利的方式與高效能運算（HPC）領域的發展接軌，過渡到下個階段，走向更多元的未來科技發展，若無法成功，蒙受強烈衝擊的對象，絕對不只是Nvidia目前強勢主導的技術與商業生態體系，而可能是整個IT生態，因為其他運算平臺業者都各自有發展隱患，Nvidia若敗下陣來，競爭廠商未必能吃下這塊市場，因為他們可能更無法有效掌握這股機會衝刺。

Nvidia新世代資料中心GPU雲端先行

專欄作者

熱門新聞