Telsa

隨著AI應用興起,也讓高效能網路需求,從高效能運算(HPC)領域擴散到一般企業資料中心。

為了因應AI帶來的龐大資料傳輸需求,以往僅見於HPC領域的 200/400Gb等級以上高速網路,也開始進入企業資料中心,連帶也讓InfiniBand與乙太網路的競爭,從高效能運算領域蔓延到企業應用領域。

目前InfiniBand與乙太網路的頻寬規格都已發展到800Gb,但由於資料鏈結層、流量控制與組網方式的差異,即便在同等頻寬條件下,InfiniBand的效能與可靠性仍具有相當的優勢,乙太網路則以成本取勝。

因而從應用需求角度來看,以效能為最優先的頂級用戶,自然首要選擇InfiniBand;而對於成本較敏感的用戶,則更傾向使用乙太網路。但若從產品供應來源的角度來看,相對於開放、充分競爭的乙太網路產品生態環境,InfiniBand的產品生態環境是由Nvidia/Mellanox壟斷,制約了用戶選擇彈性。

但InfiniBand產品的封閉與缺乏選擇彈性,也給了其他廠商機會。除了主導InfiniBand的Nvidia外,包括Intel、AMD、Broadcom在內的網路與晶片一線大廠,於2023年7月集結組成超乙太網路聯盟(Ultra Ethernet Consortium,UEC),合作發展改進的乙太網路傳輸堆架構,讓新一代乙太網路規格能兼具開放與高效能特性,從而挑戰InfiniBand在AI與高效能運算領域的領導地位。

超級乙太網挑戰InfiniBand

UEC聯盟工作小組的具體目標,是制定新的超乙太網路傳輸(Ultra Ethernet Transport,UET)協定。UET可視為RoCE協定(RDMA over Converged Ethernet)的後繼者,RoCE是將InfiniBand的RMDA存取架構移植到乙太網路而成,以求兼具RDMA的低延遲與乙太網路的低成本。

較早的RoCEv1是以InfiniBand傳輸層與網路層,結合乙太網路實體層與資料鏈結層,目前通用的RoCEv2的網路層則改用UDP/IP協定,讓資料封包可以路由,以便大規模環境的應用,但也在雍塞控制、負載平衡方面帶來新的問題。

 UEC協定的堆疊架構 

UEC推動的網路技術是在乙太網路實體層、鏈結層與IP網路層之上,引進新的傳輸層架構,搭配應用程式層的軟體API,提供改進的存取延遲、壅塞控制,以及安全性。圖片來源/Ultra Ethernet Consortium

UET協定的發展目標,是透過新的傳輸層來改善雍塞管理、延遲、安全性與多供應商支援的API,主要特性包括:幫助改善負載平衡的多路徑封包噴灑(Multi-path packet spraying),以及彈性排序(Flexible ordering),改善壅塞控制的改進控制機制與端到端遙測(End-to-end telemetry)等,還有可因應不同應用情境與規模的多種傳輸交付型式服務(Multiple transport delivery),以及改進的安全性。

UEC聯盟原定於2024年第3季發布1.0版規範,而AMD也在2024年的10月,發表全球首款「UEC Ready」的網路卡Pensando Pollara 400,但UEC的規範制定工作進度出現延遲,首版協定發布時間延後到2025年第1季。

特斯拉TTPoE異軍突起

在UEC新規範制定陷入延宕的時候,特斯拉搶先一步在Hot Chips 2024大會,發布為其Dojo超級電腦發展的TTPoE協定(Tesla Transport Protocol over Ethernet),提供另一種基於乙太網路的高效率網路架構。

如同UEC聯盟,TTPoE也是從改進傳輸層著手,在乙太網路實體層與資料鏈結層上,以自身的協定取代TCP/IP。特斯拉認為,TCP/IP基於優先流量控制機制的RDMA存取架構,雖能消除壅塞導致的封包遺失,但過於複雜,對效能影響較大,因而改用更簡單直接的壅塞控制,以及一系列旨在減少延遲的手段。

 TTPoE協定的基本架構 

電動車大廠特斯拉發展的TTPoE,實體層與資料鏈結層都沿用乙太網路,將傳輸層換為自身的TTP架構,採用更簡單、直接的壅塞控制,以及一系列減少延遲的設計,達到簡化架構,減少延遲的目的。圖片來源/Telsa

TTPoE是完全以硬體執行的點對點傳輸層協定,只涉及Layer 2傳輸,無須特殊的交換器。不同於RoCE v2,TTPoE屬於「有損」(Lossy)的傳輸層協定,在壅塞與錯誤的情況下,會丟棄封包重新傳送,並採用由每個端點獨立處理的分散式壅塞控制,透過簡單的丟棄封包來處理壅塞,藉此減少複雜性與脆弱性,另外還採用基於硬體執行的傳輸層狀態機(State Machine),藉此縮短等待狀態,有助於降低延遲。

TTPoE協定是由整合在FPGA晶片內,位於網路晶片(NOC),以及乙太網路MAC之間的IP區塊(block)執行。特斯拉也同步發表用於搭配Dojo超級電腦,內含TTP乙太網路控制器與Dojo DMA引擎的Mojo網路卡,聲稱這是基於成熟技術的「笨」(Dumb)網卡,力求簡單與經濟實惠,網路傳輸的速度可達100 Gb/s。

特斯拉根據自己的實測顯示,TTPoE能達到比InfiniBand與NVLink低40%的單向存取延遲,更只有標準TCP/IP的1/400,不過採取的方法也較為簡單與「粗暴」,與UEC試圖兼顧更廣泛需求的路線有所差異。特斯拉已宣布將會開放TTPoE,同時也將加入UEC聯盟,因而TTPoE可望與UEC協定互補,提供高效能乙太網路架構的另一選擇。

 相關報導  

熱門新聞

Advertisement