攝影:李宗翰

雲端服務、機器學習、生成式AI等一連串IT創新應用的爆發,帶動大量伺服器的建置需求,談到關鍵的硬體技術元件發展,眾人的目光大多放在CPU、記憶體、硬碟儲存、網路連接埠、I/O介面,以及日趨多元的AI加速器,然而,還有一個部分更是不可或缺的,那就是基板控制器(BMC),提供遠端登入管理的能力。

環顧市面上的伺服器產品,都整合或配備這樣的元件,像是HPE ProLiant系列內建的系統管理平臺iLO(Integrated Lights-Out),Dell PowerEdge系列內建iDRAC(Integrated Dell Remote Access Controller),聯想ThinkSystem系列內建XClarity Controller,這些都是行之有年的解決方案。除此之外,還有其他廠商可供應BMC,其中市占率最高的品牌,當屬信驊科技(Aspeed)。

在2015到2016年,信驊拿下全球BMC市占第一,並且併購Broadcom的遠端伺服器管理晶片Emulex Pilot業務,到了2019年、2020年,信驊推出第7代BMC晶片AST2600系列,採用28奈米製程的技術而成,在這之後,市面上許多新推出的伺服器紛紛搭配這款BMC晶片,例如,Supermicro的X12、H12、X13、H13世代伺服器,雲達的QuantaGrid D54、D55/S55、D44/S44、S74系列伺服器,華碩的E11、E12世代伺服器,微星的S11、S12、S13、S22、G42、G41系列伺服器,也有一些資料處理器(DPU)、智慧型網路卡(SmartNIC)搭配AST2600系列,像是過去Nvidia的 BlueField-3AX800,以及神準SX904

到了今年6月舉行的台北國際電腦展(Computex 2024),信驊發表第8代BMC晶片AST2700系列,導入12奈米製程,年初他們已開始提供樣品,目前與客戶密切合作中,預計2025年量產供貨。

相較於既有的AST2600系列,AST2700系列維持相同的封裝尺寸,不僅採用更先進的製程,效能也大大提升,增長幅度高達28倍。

  

AST2700系列晶片可設置在DC-SCM當中,信驊在今年Computex展出自家設計的模組(左圖),也陳列多家伺服器廠商採用這款BMC的DC-SCM 2.0解決方案,像是英業達Gaydon、緯穎M2110W(右圖的右側)、技嘉CDCR310。

信驊科技今年Computex發表第8代BMC晶片產品AST2700系列,可搭配去年Computex亮相的PFR晶片AST1060,以及最新推出的I/O擴展晶片AST1700,提供簡化的主板設計,以及強大的訊號處理功能。圖中是他們現場展示的主板,左邊是AST2750+AST1060的DC-SCM參考設計板,右側是搭載AST1700的I/O擴展晶片評估板。

除了持續發展BMC晶片,信驊針對雲端服務與企業IT基礎架構應用的解決方案,也陸續擴增多個產品系列,例如:負責延伸與協助分攤BMC管理的橋接晶片(BIC):AST1030與AST1035,分別在2021年與2022年推出;提供平臺韌體防護能力的晶片(PFR IC):AST1060,曾在去年臺北國際電腦展亮相;提供更多I/O技術擴充選項的 I/O擴展晶片:AST1700,在今年與AST2700一起發表。

針對雲端服務與企業IT基礎架構的應用需求,Aspeed開展出 BMC、BIC、PFR、I/O Expander這四大產品線,圖中最右側是今年開始主推的AST2700系列,以及AST1700;居中的AST2600系列,已普遍運用在市面上新推出的伺服器。

結合Arm處理器與RISC-V處理器

就硬體元件的組成而言,AST2700系列包含1個Cortex-A35應用型處理器(內建4顆Armv8-A架構的核心,時脈為1.6 GHz)、2個Cortex-M4嵌入式處理器(內建Armv7-M架構的核心,時脈為400 MHz),以及2個RISC-V處理器,支援DDR5 3200Mbps規格的16位元匯流排、PCIe 4.0、USB 3.2、UFS 3.1等傳輸介面。值得注意的是,信驊在這一代最新推出BMC晶片當中,已經整合南橋/平臺控制器中樞(PCH)晶片相關功能,像是:USB 3.2 over PCIe xHCI。

至於進入市場已有一段時間的AST2600系列,包含1個Cortex-A7應用型處理器(內建2顆Armv7-A架構的核心,時脈為1.2 GHz)、1個Cortex-M3嵌入式處理器(內建Armv7-M架構的核心),支援DDR4 1600Mbps規格的16位元匯流排。

新支援CAN、LTPI等兩種介面

關於更多類型存取介面的搭配使用,信驊在他們發布的新聞稿與網站的產品介紹提到,AST2700系列可支援兩個在現行BMC晶片較少見到的規格:控制區域網路(CAN Bus)的2.0B版,以及低電壓差分信號隧道協議與介面(LTPI)。

為何要支援CAN?信驊認為,CAN已廣泛用在電源供應器管理,當具備這項規格的BMC整合到伺服器的電源供應器,就能執行相關的遠端監控機制,企業可藉此提高伺服器、尤其是高功耗AI伺服器的效能,以及達成降低碳排放量的目標。

至於LTPI的支援,與開放運算計畫組織(OCP)訂定的兩個標準有關,一個是資料中心就緒安全控制模組(DC-SCM),另一個是主機處理器模組(HPM)。

AST2700的推出,最明顯的效益在於針對LTPI的存取支援,DC-SCM與HPM皆不需再為此搭配FPGA晶片,而且如果再搭配I/O擴展晶片AST1700,能夠獲得更多類型I/O訊號處理能力。

關於各種訊號從HPM傳輸至BMC所在的DC-SCM,目前的做法是在DC-SCM需配置FPGA晶片,而對於HPM而言,也要搭配FPGA晶片,因為這兩個模組需透過資料中心就緒安全控制介面(DC-SCI)傳輸訊號,但此介面只有168個針腳,AST2600系列有624個針腳,AST2700系列有676個針腳,訊號無法傳至HPM,於是採用低電壓差分訊號(LVDS),執行序列化(serialize)處理,將物件或陣列這類複雜的資料結構,轉換成連續的位元組資料、編碼成為LVDS訊號送出,然後進行傳輸,而在接收端,會將所得到的位元組資料執行反序列化(deserialize)處理,恢復原本的資料結構,把所有的I/O內容分散開來。

信驊認為,這樣的功能需求越來越重要,因為伺服器的運作有很多訊號要傳遞,像現在很夯的AI伺服器,管理者要掌握很多感測器提供的資料,例如,水冷裝置是否有漏液?整臺伺服器、電源供應器的運作溫度會不會過高?負載是否夠均衡?這些都是需要遠端控制的應用跟場景,所以在DC-SCM 2.0的架構引入LTPI的功能,把很多的訊號集合起來打包,轉換為高速的訊號,以往需要搭配另外一顆FPGA晶片去做這件事情。

在信驊現有的遠端系統管理架構中,單就DCS-HCM的部分,會有三個晶片:首先是BMC 晶片AST2600,第二是專攻平臺韌體防護(PFR)的晶片AST1060,第三是SCM的FPGA晶片負責訊號轉換;而在HPM的部分,這裡通常是放置CPU的主板,必須要把訊號接收下來,並且予以展開,因此,需要搭配1顆主要FPGA晶片來處理這些工作,而且還要搭配另一顆FPGA晶片幫忙除錯,因此,HPM為此總共要搭配兩顆FPGA晶片。

有了AST2700系列之後,現在可以將這些處理囊括進來,因為DC-SCM的部分不需要額外搭配FPGA晶片,而在主板端,也就是HPM,若是再搭配新推出的I/O擴展晶片(I/O Expander)AST1700,幫忙展開所有的I/O資料。

  

而且在AST2700與AST1700這兩款晶片的搭配之下,LTPI存取頻寬可達到1Gb/s。具有更大的資料傳輸能力,就能傳遞更多訊號、支援更多的I2C通道與I3C通道,這意味著信驊的BMC晶片能夠接收更多感測器的資料,提供更多應用。

  

AST2700系列最大賣點是針對LTPI介面的支援,能提供DC-SCM與HPM都無需搭配FPGA晶片的設計方式,可節省開發硬體元件與軟體程式碼的成本。若AST2700搭配AST1700系列使用,可提供1Gb/s的訊號處理頻寬,並且擴展更多I/O處理能力。

 

 

透過上述LTPI介面的整合處理,可簡化DC-SCM與HPM的設計,加速產品開發流程。信驊科技行銷業務處協理關超成表示,以現行的BMC模組化設計而言,關於DC-SCM的部分,AST2600系列要搭配FPGA轉換訊號,而在HPM的部分,也需搭配FPGA進行反序列化處理,因為廠商需要針對FPGA晶片開發硬體暫存器傳輸層(RTL)的程式碼,等於需要負擔額萬的軟體開發與硬體本身的成本。到了AST2700系列,由於這顆晶片本身可控制訊號的處理,搭配AST1700之後,也能透過這顆晶片協助處理訊號、不需執行軟體,進而獲得降低開發成本與持有成本的效益,更容易推動模組化設計。

對於伺服器廠商而言,他們需要設計與製造大量主機板,若能將通用功能開發為模組,只需進行一次設計、能插在不同主機板上面,即可大幅節省開發成本與時間。而且,AST1700不需要用到韌體(Firmwareless),LTPI介面能直接連上、將I/O展開,再加上BMC韌體原本就有人在開發,可藉此控制AST1700這個被動元件,由於運用既有資源就能做到,所以更容易實現快速上市的目標。

除此之外,關於有些功能的支援,FPGA目前並不普遍提供,而需要透過相對複雜的設計進行實作,例如,針對「I3C(改善內部積體電路)」的擴充,以及「MCTP over SMBUS(經由系統管理匯流排進行通訊的管理元件傳輸協定)」,因為這些處理會耗用更多查找表(LUTs)運算資源。

關超成強調,客戶仍能在HBM主板使用FPGA ,因為LTPI是OCP鼓吹大家採用的標準(DC-SCM 2.0),他們並不推行專屬規格的支援,而且希望讓客戶能有選擇,但同時,他們也相信AST1700具有成本優勢,可縮短開發時間,因此,客戶最終會接受這樣的搭配。

強化矽信任根防護,原生支援OCP訂定的Caliptra規格

關於BMC本身的資訊完整性確保,AST2600系列支援安全開機啟動的模式,並憑藉自身搭配Arm Cortex A7處理器而內建的TrustZone,提供相關的硬體驗證保護。到了最新登場的AST2700系列,信驊宣布採用OCP推動的矽信任根(SiRoT)智財技術,名為Caliptra,目的是在遵循開放標準的作業流程的前提之下,確保重要維運工作的完整性與機密性。

因應高密度伺服器大量集中管理需求,率先支援雙節點配置

由於伺服器在資料中心基礎架構扮演的角色日益吃重,單臺伺服器設備需要部署的BMC晶片可能不只1顆。例如,專攻AI推論與AI訓練用途的GPU伺服器或加速運算ASIC伺服器,每一臺設備配置的BMC晶片將會是2到4顆(主機板1顆、匯集8個GPU或加速運算ASIC的模組1顆,若再搭配DPU/IPU,並考慮這類I/O卸載卡的備援需求,又會因此增用兩顆BMC)。

  

另一種情況是供應雲端服務的超大型IT基礎架構業者或是大型企業,為了能夠更徹底發揮機房空間效益,對於大量伺服器的建置,會希望採用高密度的硬體組態,因此,市面上,一直都有導入雙節點或四節點架構設計的產品,因此,在相同的機架空間中,需要搭配的BMC晶片數量,也將隨著運算節點的增加而提升兩倍或四倍。

為了簡化系統複雜度、降低管理成本、強化資源配置靈活度,信驊在AST2700系列當中的AST2750,額外支援多節點運算架構,能憑藉單顆BMC晶片同時監控兩臺運算節點(Dual Host),信驊在2024台北國際電腦展現場,特別提供實機示範。

這項概念規格的發展與設計,目前是AMD與英特爾這兩家CPU廠商推動,目的是在一張主機板裝載兩顆x86處理器,可以分別執行兩個獨立的作業系統,並且能透過AST2750管理這兩個系統,為此AST2750本身提供的介面都會有兩組,例如,提供兩組ePI、兩組PCIe、兩組LTPI、兩組VGA輸出,信驊表示,這其實是用1顆BMC再加上1顆FPGA,去做到原本需要兩顆BMC的管理功能,藉此突顯這個全新的市場。

由於信驊目前尚未取得CPU廠商提供的Dual Host參考驗證,所以他們在Computex現場的設備展示,是透過兩張主機板與搭載AST2750的評估板,模擬兩個系統的遠端管理,旁邊設置一臺筆電,呈現智慧平臺管理介面(IPMI)提供的圖像化操作方式,從中可看到個別節點的作業系統運作,以及風扇轉速、溫度等硬體環境狀態。

  

AST2700系列當中的AST2750可額外提供多節點的管理能力,能以單顆BMC晶片監控兩臺運算節點,信驊在Computex也為此設計出一套搭配兩張主機板的設備,展示搭載這顆晶片的評估板同時管理兩臺主機的能耐。

關於OCP推動的多節點系統BMC管理架構,我們在2022年10月舉行的OCP全球高峰會,看到有場探討多主機模組化系統的演講,列出一種架構是用單顆BMC搭配兩張HPM,或許這個概念與AST2750提供的雙主機支援是相近的。

熱門新聞

Advertisement