在2024年6月台北國際電腦展,GPU大廠Nvidia偕同多家伺服器廠商,展出整櫃型AI伺服器GB200 NVL72,吸引多家公有雲業者與大型科技公司採購建置,然而,在同年7月下半11月下半,有媒體報導可能有過熱問題的傳聞,令外界擔憂影響出貨。當時陸續有多家廠商力挺,例如,鴻海、廣達均一再強調不受影響; Dell創辦人暨執行長Michael Dell 11月18日宣布,全球第一臺GB200 NVL72正式出貨

而對於採購這些硬體設備的公有雲業者而言,他們如何看待與Nvidia的合作?

微軟2024年10月8日表示,Azure會是首家用GB200的AI伺服器營運Blackwell的雲業者,11月19日宣布將推出基於GB200 NVL72的雲端虛擬機器服務,名為Azure ND GB200 V6系列,開放內部預覽測試,2025年1月8日微軟執行長Satya Nadella表示,他們的第一座NVL72叢集系統已經在Azure環境運作。

Google Cloud在2024年10月16日表示,他們正與Nvidia合作組建GB200 NVL機櫃,秀出機櫃設置於資料中心的照片;Oracle 9月預告將建造雲端服務領域最大的AI超級電腦,在這座OCI Supercluster,最多供應131,072個Nvidia Blackwell GPU,運算效能規模達2.4 zettaFLOPS,11月20日他們宣布在全球雲端區域中心,率先啟用第一座有完整配備的Nvidia GB200 NVL72機櫃,支援客戶使用。

至於AWS,2023年11月底與Nvidia宣布合作發展全球最快GPU架構AI超級電腦Project Ceiba;2024年3月Nvidia表示,這套AI超級電腦將以Nvidia GB200 NVL72組建而成,將配置20,736個B200 GPU與10,368個Grace CPU,AI效能達414 EFLOPS;到了12月,AWS預告2025年將推出採用Blackwell的執行個體服務P6,相較現行GPU,速度增2.5倍。

Nvidia面對市場強烈期待,以及每隔一段時間的出貨進度質疑聲浪,他們如何回應?

今年1月6日舉行的CES美國消費電子展期間,Nvidia創辦人暨執行長黃仁勳在開幕主題演講強調,Blackwell已全面量產,每家雲端服務商都有這樣的系統,而且正在使用,目前有15家系統製造商推出近200款機型與組態,當中有採用液冷或氣冷的系統,基於x86或Arm架構的系統,以及兩臺GB200 NVL36、1臺GB200 NVL72,這些會在45座工廠生產。

正當大家以為新世代GPU整櫃型系統的生產製造進度符合預期,並且熱烈討論Nvidia本次在CES發表多項產品與技術的背後意義與趨勢之際,沒想到,1月13日系統過熱傳聞再度出現,引發全球關切。到了1月16日,黃仁勳來臺參加封測廠商矽品精密的潭科廠啟用揭牌儀式,媒體追問Blackwell現況。

他表示,Blackwell採用CoWoS-L封裝,將兩個非常大的裸晶(die)連接成1個大晶片,Nvidia現行Hopper架構GPU採用CoWoS-S封裝,他們會逐漸轉移、增加CoWoS-L採用,這麼做並非為了減少容量,而是增加容量。

關於散熱,黃仁勳強調Blackwell是非常複雜的技術,是全球有史以來製作方式最複雜的電腦,每一臺Blackwell系統重達3千磅,裡面總共包含60萬個元件,數量相當於一輛汽車的30倍,接著他重申Blackwell已進入全面生產狀態,這麼複雜的產品在工程的初期階段面臨許多挑戰,其實是相當正常的,而且他們已經開始將相關產品出貨到全世界。

面對相關的爭議與傳聞,Blackwell平臺的發展、部署,以及後續推廣,顯然還需要持續克服技術、應用、商業模式等層面的挑戰,這次要處理的硬體環節相當廣泛,包含GPU的升級、CPU與GPU的融合,從一臺臺伺服器機架的設置躍升到單座與多座機櫃,散熱方式也從發展多年、成熟的氣冷,改為過去只在特定環境使用的液冷,這些議題都要在有限的時間之內盡速解決。

一旦成功,IT產業勢必能夠以更順利的方式與高效能運算(HPC)領域的發展接軌,過渡到下個階段,走向更多元的未來科技發展,若無法成功,蒙受強烈衝擊的對象,絕對不只是Nvidia目前強勢主導的技術與商業生態體系,而可能是整個IT生態,因為其他運算平臺業者都各自有發展隱患,Nvidia若敗下陣來,競爭廠商未必能吃下這塊市場,因為他們可能更無法有效掌握這股機會衝刺。

專欄作者

熱門新聞

Advertisement