這幾年來,Nvidia堪稱最活躍、最受各界矚目的企業級加速運算平臺廠商,隨著伺服器虛擬化、大數據分析、生成式AI技術浪潮一波波襲來,Nvidia都在其中扮演重要角色,他們不斷打破既有市場規則,開創許多新的典範。

以及今年發表的Blackwell架構資料中心GPU為例,截至目前為止,Nvidia在尚未推出基於這個GPU晶片而成的運算模組或加速卡之際,居然就已開始主推新一代融合晶片GB200 Grace Blackwell Superchip(結合自研Arm處理器Grace與Blackwell架構GPU),基於36個GB200的整櫃式系統GB200 NVL72,以及預載8個Blackwell架構GPU的加速運算基板:HGX B200、HGX B100,而非按部就班地推廣各種GPU解決方案。

先前Nvidia在Ampere架構與Hopper架構的作法,是先解說與強調單個A100或H100 GPU的性能與效益,同時帶入匯集4或8個GPU的加速運算基板/GPU伺服器,展示整個伺服器廠商生態的支持與響應,後續再擴及搭配更大量GPU的單櫃或多櫃型系統。不過,隨著Nvidia去年完成融合晶片GH200 Grace Hopper Superchip的設計,以及多家廠商這兩年陸續推出基於GH200的伺服器,像是:雲達、Supermicro、技嘉、華碩、永擎、和碩、Nvidia、Amax、立端、HPE,或許是因為這些廠商的熱烈響應,使Nvidia對這類採用「超級晶片」的伺服器更有信心,因此,今年3月GTC大會與6月台北國際電腦展,他們更是開門見山、直接主推基於GB200而成的伺服器與整櫃型系統。至於Blackwell架構GPU的主要技術特色介紹,並不像前幾代資料中心GPU架構發表時那樣詳盡,目前只能仰賴Nvidia網站的介紹,而且,上面公布的技術架構簡介文件,聚焦Blackwell架構的部分,嚴格來說只有5頁篇幅,相較之下,現行Hopper架構技術白皮書,在架構設計、規格、效能的總覽與深度解析有近50頁之多。

在Blackwell架構GPU的效能展現上,今年8月底公布的AI推論測試結果MLPerf Inference v4.1,首度以第三方機構的角度,揭露基於此架構而成的產品B200能耐(單臺伺服器、單個GPU),從中可看出同樣使用Llama 2 70B的模型時,B200均大幅領先AMD Instinct MI300X、Nvidia GH200、Nvidia H200。

若就網路與儲存的產品技術搭配與合作廠商來看,Nvidia更是遙遙領先其他競爭對手。就網路技術而言,英特爾、AMD、Nvidia都能同時提供超高速網路介面卡,以及資料處理器(DPU)、基礎架構處理器(IPU),幫忙分攤伺服器的加解密處理,以及具備可程式化能力的調度指揮機制。然而,截至目前為止,只有Nvidia很果決地將這樣的解決方案,與他們的AI加速運算系統進行搭配,而且不僅提供乙太網路與InfiniBand這兩種技術的支援,也將旗下的資料處理器、網路交換器、網路線、軟體定義網路系統,統合為新的網路平臺,名為Spectrum-X與Quantum-X,再加上Nvidia的網路解決方案先前就已陸續支援GPUDirect系列技術,並且將原本他們想要發展的網內運算(In-Network Computing),更聚焦在如何加速AI工作負載,藉此提供更有效率、更少損耗、更低延遲的資料中心網路環境。

相較之下,其他兩家廠商的網路卸載/加速解決方案,並未與他們的資料中心GPU或AI加速器連成一氣、形成互相支援的技術堆疊架構,仍是各行其是。不過,AMD本月發表新的資料處理器Pensando Pollara 400,或許後續能帶來更多技術整合層面的突破,因為在這當中,AMD提供同樣稱為GPUDirect的GPU橫跨乙太網路的直連通訊功能。

在儲存方面,Nvidia已拉攏不少廠商加入支援與合作陣營。近年來,越來越多企業級儲存系統廠商支援Nvidia發展的GPUDirect Storage(GDS),根據Nvidia在他們網站文件區公布的GPUDirect Storage Release Notes,8月份的分散式檔案系統產品支援矩陣,有多達9個廠牌、15個儲存系統平臺,被認可的時間最早是2021年6月(WekaIO),最近的是2023年12月(Pure Storage),除此之外,還有其他廠商陸續宣布支援,在1205期週刊的封面故事當中,我們的技術主筆張明德會有更完整的報導。

 相關報導 

專欄作者

熱門新聞

Advertisement