圖片來源: 

Google Cloud

Google Cloud公布最新Google Kubernetes Engine版本,號稱可支援最高達65,000個節點的伺服器叢集,以執行超大型AI模型。

生成式AI技術演進及應用普及,推升了大型語言模型(LLM)規模及參數量也愈來愈大,目前許多已突破千億參數,甚至有些來到2兆。而訓練這些大型模型的加速器,需要超過1萬個節點的運算基礎架構。

Google Kubernetes Engine(GKE)向來可支援多節點叢集,以執行AI模型訓練任務。先前版本GKE可支援1.5萬個叢集節點,隨著新版推出,現在GKE可支援高達6.5萬個節點的叢集。Google認為最新GKE支援的節點規模,是Amazon和微軟的10倍以上。

以Google Cloud而言,現在單一節點提供了多個加速器,像是搭載4顆晶片的Cloud TPU v5e節點,因此單一叢集使用最新版GKE後,最多可管理超過25萬顆加速器。

Google說明新版GKE較前代的創新。首先,該公司將Key-Value資料庫由etcd換成了以Google Spanner為基礎的key-value資料庫,後者幾乎規模無上限,可改善叢集運作(如啟動和更新)延遲性,及無狀態叢集控制層(control plane)。Google並實作etcd API以提供回溯相容性,使核心Kubernetes無需變更。

其次,Google改善了管理Kubernetes控制層的GKE基礎架構,使GKE現在擴充速度更快,改善的控制層有多重效益,包括能執行高一致性的大容量運算。控制層現在能自動因應運算調節,並使延遲性維持在可預測範圍。這點對執行大型動態應用如SaaS、災難復原和備援、批次部署以及測試環境來說尤其重要。

有了新版GKE,Google Cloud強調更能支援AI模型任務。訓練AI模型時企業需要分配運算資源給多個工作負載,因此將任務集中在少量叢集可提供最大調度彈性,執行推論、研究和訓練的作業。Google說,由於支援6.5萬個節點,現在GKE允許單一叢集執行5種任務,每種任務的執行效能,都足以媲美2023年Google Cloud以5萬餘顆TPU v5e,締造的10 exa-FLOPs的LLM訓練速度世界紀錄。

熱門新聞

Advertisement