關於市面上的GPU伺服器,Nvidia在多年以前就開始推動認證機制,並在該公司網站公布他們驗證的伺服器廠牌與機型資訊,例如,用於Nvidia GRID應用與GPU虛擬化的認證產品型錄,可稱為Nvidia vGPU Certified Servers或Nvidia vGPU Partners。

另一個則是我們常在產品快報這單元引用的GPU認證伺服器清單,也就是Nvidia Qualified Server Catalog(先前稱為Nvidia Tesla-Qualified Server Catalog),後續他們在2017年發表雲端深度學習軟體容器映像登錄服務,稱為Nvidia GPU Cloud(NGC),又陸續於2018年11月推出NGC-Ready Systems,2019年5月發表了EGX的邊緣運算平臺品牌,10月又基於NGC-Ready Systems的概念,延伸出NGC-Ready for Edge Systems的伺服器認證計畫。

到了2020年10月,Nvidia繼續基於EGX平臺核心的NGC,而首度提及「Nvidia-Certified System」這個稱呼,用來描述可簡化建構與部署AI應用的伺服器平臺,接著,在今年1月底,他們正式推出這樣的伺服器認證機制,並公布第一波通過驗證的12款產品,而我們現在所要介紹的技嘉科技R282-Z96,正是其中一款機型,也選在此時發表。

就運算配置而言,R282-Z96搭配2顆AMD EPYC 7002系列處理器、32支DDR4-3200記憶體;在介面卡擴充插槽上,這裡可安裝3張全高全長、雙寬尺寸的GPU,以及2張遵循OCP標準的轉接卡,能擴充更多網路介面。

而在儲存的部份,技嘉這款伺服器可搭配8臺3.5吋SATA硬碟,以及4臺SATA與NVMe介面的硬碟(可加裝SAS介面卡來搭配8臺SAS硬碟),除此之外,主機板也內建1個M.2插槽,可安裝M.2 2242、2260、2280、22110等外形的固態硬碟。

值得一提的是,在12款Nvidia-Certified system產品當中,技嘉科技的提供的機型多達5款,但根據1月底公布的Nvidia Qualified Server Catalog來看,只列出最新發表的R282-Z96,以及去年8月發表的G242-Z11,而且搭配的GPU是Nvidia去年推出的A100 PCIe。

至於R281-G30、G482-Z54、G492-Z51等3款機型,同樣名列在Nvidia-Certified system第一波發布機型,但為何未出現在他們認證型錄的Nvidia-Certified列表當中?技嘉表示,關於Nvidia(在新聞稿)列出的機種,代表技嘉伺服器已通過相關認證,而受限於Nvidia內部負責網站資料更新的作業時程,他們目前尚無法得知何時會上架到該網站。

伺服器納入Nvidia-Certified Systems的條件有哪些?

去年10月,當Nvidia-Certified Systems一詞出現時,並未引起太多人注意,而在伺服器廠商發布的新聞稿,也只提到一些資訊。以技嘉為例,他們表明將驗證Nvdia A100與旗下多款伺服器之間的搭配,並在這項認證計畫上,將會針對下列軟硬體元件提供支援,包含:GPU(A100 PCIe),系統主板(HGX A100 8-GPU與4-GPU),SmartNIC網路與運算卸載介面卡Mellanox ConnectX-6、ConnectX-6 Dx、BlueField-2 DPU,以及AI軟體型錄服務NGC。

相較於過往GPU伺服器的驗證,著重在Nvidia GPU的搭配,技嘉也將同時驗證DPU及SmartNIC。

而在今年1月正式公告的Nvidia-Certified Systems相關消息當中,Nvidia列出更多這項計畫的細節。例如,這些產品必須通過4種測試,分別是:深度學習訓練與推論、機器學習演算法、智慧影像分析、網路與儲存裝置卸載,而且聚焦在實際應用案例的測試,並運用NGC收錄的常見AI框架與容器。最終,Nvidia期盼透過這樣的認證系統,讓每家公司能夠比照當前性能最強大的AI電腦設備,而能存取到基於同樣架構而成的硬體與軟體。

例如,在GPU的深度學習效能測試上,Nvidia會運用TensorFlow、PyTorch等兩套框架;在大量、低延遲的推論處理上,則是採用Nvidia發展的TensorRT與Triton Inference Server;在GPU加速資料分析與機器學習的部份,使用Nvida的RAPIDS;針對應用程式開發的應用需求,則是運用Nvida的CUDA Toolkit及HPC SDK。同時,Nvidia還會進行下列測試項目,像是:多節點的深度學習訓練的效能觀察;高頻寬、低延遲的網路應用,以及加速封包處理效能;系統層級的安全性,以及基於硬體的金鑰管理。

就系統組成的部分,通過Nvidia-Certified Systems認證的產品,包含多臺資料中心等級的伺服器,當中有些產品可搭配到8個A100 GPU,以及高速的InfiniBand或乙太網路介面卡。同時,這套系統也涵蓋在網路邊緣執行AI應用的主流伺服器。

除了驗證AI執行的軟硬體,Nvidia也會驗證伺服器使用Mellnox網路纜線、交換器、網路卡,以及DPU的狀況。以交換器而言,他們會驗證的200Gb/s網路設備,是QM8700系列InfiniBand交換器,或是Spectrum SN3700系列乙太網路交換器。

若企業想要取得Nvidia-Certified Systems,可直接經由Nvidia認證的OEM廠商,來選購企業級支援服務,也就是NGC Support Services,當中將提供全面的軟體堆疊支援服務,也將涵蓋到開放原始碼。

相較於稍早推出的NGC-Ready systems,Nvidia-Certified Systems有何不同?首先是硬體,NGC-Ready systems要求的配備是V100、T4、RTX 6000、RTX 8000,Nvidia-Certified Systems則是要求Ampere架構GPU,以及Mellanox ConnectX-6、Connect X-6 Dx、BlueField-2 DP.等網路介面;其次是節點架構,NGC-Ready systems是單點系統,Nvidia-Certified Systems則是可同時涵蓋單點及基於叢集架構的系統。

而這樣的區隔方式變化,在Nvidia認證伺服器型錄會如何呈現?在去年底的Nvidia認證伺服器型錄,總共有3個認證相關欄位,分別是:Nvidia Certified、EGX Server、GRID Certified,而NGC-Ready會整合在Nvidia Certified這一欄,於是,會有NGC-Ready、Yes、No等3種狀態表示用語。

在今年1月正式推出Nvidia-Certified system後,Nvidia認證伺服器型錄將認證欄位,則只留下Nvidia Certified這一欄,區分出NGC-Ready、Nvidia Certified、No等3種表示。

產品資訊

技嘉R282-Z96
●原廠:技嘉科技
●建議售價:廠商未提供
●機箱尺寸:2U
●處理器:2顆,AMD EPYC 7002系列
●記憶體:32個DDR4-3200插槽
●儲存配置:12臺3.5吋或2.5吋的傳統硬碟或固態硬碟(8個SATA/SAS埠、4個SATA/NVMe埠)
●I/O擴充介面:5個PCIe 4.0 x16(3張轉接卡),1個PCIe 4.0 x16(OCP 3.0),1個PCIe 3.0 x8(OCP 2.0),1個PCIe 4.0 x4(M.2)
●GPU:最多可安裝3張雙寬尺寸的GPU
●網路埠:2個LAN埠、1個管理埠,均為GbE
●電源供應器:2臺2000瓦(1+1備援)

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement