關於加速人工智慧處理的硬體晶片發展,英特爾除了持續強化、擴增自家處理器的相關指令集,也先後透過併購其他公司來拓展更多應用,例如,2015年底買下FPGA廠商Altera,2016年併購AI晶片新創公司Nervana、Movidius,2018年買下晶片廠商eASIC,2019年底併購AI晶片新創公司Habana Labs,產品線看似相當寬廣,但也歷經波折。

像是2020年2月,傳出英特爾中止Nervana發展的消息,於是,用於深度學習訓練的NNP-T系列晶片,以及用於深度學習推論的NNP-I系列晶片,只好就此作罷。

至於Movidius,英特爾在2017年發表Movidius Myriad X VPU,2018年上半正式推出,年底發表邊緣AI運算棒Intel Neural Compute Stick 2,這幾年以來,雖然有不少合作廠商推出VPU加速卡或嵌入式模組,搭配視覺運算軟體開發套件Intel Distribution of OpenVINO toolkit,但英特爾較少揭露後續的技術應用進展與突破,未來發展前景仍有待觀察。

以目前來看,在AI技術應用領域的發展上,英特爾併購而來而後市可期的,首推Altera、eASIC,以及Habana Labs,前兩者均融入Intel FPGA系列技術當中,以2020年而言,Stratix 10 NX FPGA與eASIC N5X相繼登場,而最晚加入的Habana Labs,則憑藉AI訓練加速晶片Gaudi HL-2000,基於Gaudi的兩個產品:Gaudi HL-205、Gaudi HL-200,以及AI推論加速晶片Goya,也於此時浮出檯面,而在產品設計方式上,這兩款晶片都是採用台積電16奈米製程。

雲端服務龍頭AWS與SDSC超級電腦計算中心採用,打響了Habana的知名度

2020年底,傳出公有雲龍頭業者AWS採用的消息──當時他們提到,在EC2系列執行個體服務當中,將增設搭配Habana Gaudi加速晶片的服務,到了今年10月,這項執行個體服務正式推出,並且定名為DL1。

若想要在公司或組織內部建置搭配Habana Gaudi加速晶片的伺服器,今年也有廠商率先推出產品。

例如,在4月初,趁著英特爾發表第三代Xeon Scalable系列處理器平臺,Habana Labs宣布,美國加州大學聖地牙哥分校的超級電腦計算中心San Diego Supercomputer Center(SDSC)新設置的超級電腦Voyager,將採用336個Gaudi加速晶片,提升AI訓練處理的規模,並搭配16個Goya加速晶片來強化AI推論模型的處理效能,而這樣的AI系統的硬體設備,則是Supermicro(美超微)推出的兩款伺服器來分別對應。

搭配Goya加速晶片的機型,是4029GP-T系列,採用4U機箱、2顆第二代Xeon Scalable處理器,並且可安裝8張雙插槽外形的加速卡,而在Voyager超級電腦系統中,則是搭配8張PCIe介面卡形式的Goya HL-100,負責AI推論處理。

承載Gaudi加速晶片的機型是SYS-420GH-TNGR,採用4U機箱、第三代Xeon Scalable處理器,屬於今年最新出爐的Supermicro X12世代產品,因此,又稱為Supermicro X12 Gaudi AI Training System,每臺伺服器可搭配8張Gaudi HL-205,而在Voyager超級電腦當中,將設置42臺Supermicro X12 Gaudi AI Training System,因此,Gaudi加速晶片可達336個。

不過,上述SDSC的Voyager採用Habana Labs的AI加速晶片,以及Supermicro有兩款伺服器可與其搭配的消息,當時並未引發太多關注。

時機成熟,英特爾與Supermicro齊推Habana AI伺服器

到了11月中舉行美國超級電腦大會期間,英特爾、Habana Labs都發布新聞稿,Supermicro也於8月將Habana Gaudi伺服器納入AI處理器解決方案,與採用Nvidia Ampere架構的GPU伺服器並列,這意味著基於Habana加速運算的伺服器正式登場。

     

在英特爾、Habana Labs這次發布的資訊當中,還特別提到搭配儲存設備,也就是DDN公司本月最新推出的AI400X2,並基於這樣的產品組合,提供立即可用的AI訓練解決方案,負責AI資料的儲存,而搭配Habana Gaudi加速晶片的伺服器,專攻AI資料的管理。

而在這套解決方案當中,Habana Labs表示,預設將提供1臺、2臺、4臺Supermicro X12世代伺服器的組態選擇,因應不同的AI訓練容量的處理需求。

          

以伺服器而言,Supermicro X12 Gaudi AI訓練系統採用的機型,就是SDSC超級電腦Voyager搭配的SYS-420GH-TNGR,內建8張Gaudi HL-205的夾層卡,符合開放運算計畫(OCP)提出的OAM模組規格要求。而且,HL-205與另一款HL-200均內建32 GB容量的HBM2記憶體,支援PCIe 4.0 x16擴充介面,網路介面也支援RoCEv2(RDMA over Converged Ethernet v2)。

除此之外,SYS-420GH-TNGR可搭配2顆第三代Xeon Scalable處理器、8TB容量的DDR4-3200記憶體,以及4臺NVMe或SAS或SATA介面的傳統硬碟或固態硬碟,並且內建2臺PCIe 4.0交換器,可分別對應4張Habana HL-205,也設置了支援RoCEv2的網路介面──提供6個QSFP-DD埠,可支援400GbE規格,或是分接成24個100GbE埠,能支援系統規模的橫向擴展。

值得注意的是,關於RoCEv2與100GbE網路介面的支援,應該是源於Habana Gaudi加速晶片,根據他們在Hot Chips 2019大會公布的資訊來看,單顆Habana Gaudi整合10個支援RoCE的100GbE網路介面,是當時唯一整合RoCEv2的AI晶片。

除此之外,Habana Gaudi本身的組合也很特別,當中採用了異質運算架構,包含:可設定的集中式GEMM(General Matrix Multiply)引擎,具備完整可程式化能力、支援各種自製AI運算的張量處理核心(Tensor Processing Cores,TPC),同時,這款加速器也支援軟體管理式記憶體架構。

而在軟體平臺的部分,Supermicro X12 Gaudi AI訓練系統也能與Habana發展的多種環境搭配,像是:SynapseAI軟體套件,用戶可運用最佳化的TensorFlow與PyTorch的容器映像,來執行AI訓練的工作負載;以及Habana的開發者專屬網站、設立於GitHub的Habana程式碼儲存庫,能讓資料科學家與開發者取得參考模型,著手建構新的模型或將將既有模型遷移Gaudi加速運算環境中。

在儲存設備的搭配上,Supermicro X12 Gaudi AI訓練系統結合的DDN AI400X2,可支援純NVMe固態硬碟,或是混合NVMe固態硬碟與傳統硬碟的組態,每臺系統最大可提供720 TB的NVMe固態儲存,或是6.4 PB的硬碟儲存,提供90 GB/s的吞吐量與3百萬IOPS的存取效能。

根據DDN公布的參考架構所示,AI400X設備預設提供30 TB與250 TB的純NVMe儲存組態,混合硬碟儲存組態則是選購。

在Supermicro X12 Gaudi伺服器與DDN儲存設備之間的整合應用上,DDN的平行檔案系統(parallel filesystem)可促成應用程式容器的高效能直連架構──DDN系統提供的容器內(in-container)檔案系統掛載能力,可透過通用的包裝器(wrapper)在程式的執行時期增添進去,而不需要修改應用程式或容器的內容。

相關的交互運作上,DDN A3I容器個人端程式可直接存取X12 Gaudi伺服器執行的容器化應用程式,以實現高效能的資料平行存取管道,而基於這樣的架構,容器化深度學習框架能運用最有效率的資料存方式,對於運算堆疊其他層級導致的所有延遲,可予以避免,而原本多個容器共用的主機層級儲存連線的單一存取限制,也將隨之消弭。

SC21大會期間,Supermicro也針對SDSC的Voyager超級電腦採用他們的伺服器,公布更多資訊。

以參考架構而言,首先,是7座Gaudi AI訓練機櫃,每座機櫃能放置6臺Supermicro X12 Gaudi伺服器,也就是總共42臺、336張Gaudi加速卡;其次,是1座Gaudi AI推論暨儲存機櫃,當中擺放2臺4U尺寸的Goya推論處理伺服器(每臺搭配8張Goya加速卡),以及多臺2U4節點的CPU伺服器(提供36臺節點)、1臺4U的硬碟櫃、多臺1U的高密度儲存伺服器;最後,是網路交換器集中機櫃。

關於儲存資源的提供,這套系統可配置2 PB硬碟空間。而在網路交換器的部分,則是採用Arista的400GbE交換器,至於機型名稱,在上述DDN的參考架構提到,搭配的400GbE交換器是1U尺寸、提供32個100GbE埠的CS-7060DX4-32-F;管理交換器則是Arista 7010T,提供48個GbE埠與4個10GbE埠。

至於SDSC發展的Voyager超級電腦近況,Supermicro也透露這套系統的上線時程,預計在2022年1月開放初期試用,2月正式上線運作。

產品資訊

Supermicro X12 Gaudi AI Training System
●原廠:Supermicro
●建議售價:廠商未提供
●伺服器機型:SYS-420GH-TNGR
●機箱尺寸:4U
●處理器:2顆,Intel第三代Xeon Scalable系列
●記憶體:32個DDR4-3200,插滿256 GB,可達到8 TB
●儲存配置:4臺2.5吋SATA/SAS/NVMe硬碟或固態硬碟,搭配2臺M.2的SATA/NVMe固態硬碟
●I/O擴充介面:3個PCIe 4.0 x16(1個全高全長與2個AIOM模組)
●電源供應器:4臺3000瓦
●加速器配置: 8臺Habana Gaudi HL-205(OAM夾層卡)
●網路介面:1個10GbE埠(RJ-45)、6個400GbE(QSFP-DD)

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


熱門新聞

Advertisement