圖片來源: 

Google Cloud

Google Cloud昨(30)日公布最新版雲端超級電腦基礎服務Hypercomputer,並預覽第6代TPU(Tensor Processing Unit)Trillium。

高速運算(Hypercomputing)基礎架構Hypercomputer是Google Cloud專為執行AI負載設計,集結AI優化的TPU、CPU與GPU的整合硬體、開源軟體而成的依用量計價服務。去年12月公布以TPU v5p為基礎的版本後,本周Google Cloud在App Dev & Infrastructure高峰會上,公布以第6代TPU Trillium為基礎的新版Hypercomputer,以及超運算相關軟、硬體,包括Nvidia H200 Tensor Core GPU的A3 Ultra VM(預覽版)和最新叢集Hypercompute Cluster、Google自建Arm處理器Axion為基礎的C4A VM,以及最新上線的Jupiter光纖交換網路(optic circuit network fabric)與AI/ML專用的區塊儲存(block storage)服務Hyperdisk ML。

Google強調,現為預覽版的Trillium是當今浮點運算效能最高的TPU,單一TPU叢集提供91 exaflops效能。和去年TPU v5e相較,訓練AI模型效能提升4倍,推論吞吐量增加3倍,每顆晶片尖峰運算效能也拉高為4.7倍。而高頻記憶體(HBM)容量和晶片間互連頻寬都增加為2倍,但同時間能源耗用卻少了67%。

HBM容量和頻寬增倍讓Trillium可更有效運行和訓練權重更多與key-value快取更大的模型,像是Gemma 2與Llama 2、或是專用專家混合(mixture of expert,MoE)實作。此外Trillium在運算密集的推論,包括大型擴散模型如Stale Diffusion XL。在單一高頻寬低延遲Pod中Trillium以晶片互連技術(interchip interconnect,ICI)最高可擴充到256個晶片,以串連數百pods的上萬顆晶片,以Google 13 Petabit/s的Jupiter資料中心網路打造超級電腦,而以Multislice軟體,Trillium將可實現幾近直線擴充的效能,來訓練AI模型。。

在標竿測試上,Trillium執行Gemma 2-27B、MaxText Default-32B及Llama2-70B,效能是TPU v5p的4倍有餘,執行Llama 2-7B及Gemma 2-9B則是超過3倍。而以每單位成本效能計算,Trillium是v5e的1.8倍、v5p的2倍,是最具成本效益的TPU。

其他新發布方面,採用Nvidia H200 Tensor Core GPU的A3 Ultra VM,將在11月整合到Google Cloud中,屆時將推出叢集Hypercompute Cluster。比起前代的A3 Mega,A3 Ultra VM特色包括GPU對GPU網路頻寬增加2倍,LLM推論效能提升為最高2倍。在單一叢集內最高可擴充到數千顆GPU以執行AI和HPC任務。

今天Google Cloud並宣布自家Arm架構Axion CPU為基礎的C4A VM服務推出,強調性價比高於別家VM 10%,而比x86 CPU-based VM相比,性價比和能源效率都提升65%和60%,適合執行一般任務如Web或應用伺服器、容器化微服務、開源資料庫、記憶體內快取、資料分析、媒體處理及AI推論應用等。

最後,Google Cloud還宣布Jupiter光纖交換網路(optic circuit network fabric)、以及AI/ML專用的區塊儲存(block storage)服務Hyperdisk ML今天上線。Jupiter光纖交換網路提供原生400 Gb/s連線速度和13.1Pb/s的對分頻寬(bisection bandwidth),號稱可處理地球上所有視訊影像。4月宣布的區塊儲存(block storage)服務Hyperdisk ML今天上線,可用於AI及HPC作業的儲存需求,資料載入速度更快,一個volume可附加2500 instance,每volume集結傳輸量達1.2TB/s,是競爭者100倍有餘。

熱門新聞

Advertisement