Google Cloud推第6代TPU為基礎的新版Hypercomputer

圖片來源:

Google Cloud

Google Cloud昨（30）日公布最新版雲端超級電腦基礎服務Hypercomputer，並預覽第6代TPU（Tensor Processing Unit）Trillium。

高速運算（Hypercomputing）基礎架構Hypercomputer是Google Cloud專為執行AI負載設計，集結AI優化的TPU、CPU與GPU的整合硬體、開源軟體而成的依用量計價服務。去年12月公布以TPU v5p為基礎的版本後，本周Google Cloud在App Dev & Infrastructure高峰會上，公布以第6代TPU Trillium為基礎的新版Hypercomputer，以及超運算相關軟、硬體，包括Nvidia H200 Tensor Core GPU的A3 Ultra VM（預覽版）和最新叢集Hypercompute Cluster、Google自建Arm處理器Axion為基礎的C4A VM，以及最新上線的Jupiter光纖交換網路（optic circuit network fabric）與AI/ML專用的區塊儲存（block storage）服務Hyperdisk ML。

Google強調，現為預覽版的Trillium是當今浮點運算效能最高的TPU，單一TPU叢集提供91 exaflops效能。和去年TPU v5e相較，訓練AI模型效能提升4倍，推論吞吐量增加3倍，每顆晶片尖峰運算效能也拉高為4.7倍。而高頻記憶體（HBM）容量和晶片間互連頻寬都增加為2倍，但同時間能源耗用卻少了67%。

HBM容量和頻寬增倍讓Trillium可更有效運行和訓練權重更多與key-value快取更大的模型，像是Gemma 2與Llama 2、或是專用專家混合（mixture of expert，MoE）實作。此外Trillium在運算密集的推論，包括大型擴散模型如Stale Diffusion XL。在單一高頻寬低延遲Pod中Trillium以晶片互連技術（interchip interconnect，ICI）最高可擴充到256個晶片，以串連數百pods的上萬顆晶片，以Google 13 Petabit/s的Jupiter資料中心網路打造超級電腦，而以Multislice軟體，Trillium將可實現幾近直線擴充的效能，來訓練AI模型。。

在標竿測試上，Trillium執行Gemma 2-27B、MaxText Default-32B及Llama2-70B，效能是TPU v5p的4倍有餘，執行Llama 2-7B及Gemma 2-9B則是超過3倍。而以每單位成本效能計算，Trillium是v5e的1.8倍、v5p的2倍，是最具成本效益的TPU。

其他新發布方面，採用Nvidia H200 Tensor Core GPU的A3 Ultra VM，將在11月整合到Google Cloud中，屆時將推出叢集Hypercompute Cluster。比起前代的A3 Mega，A3 Ultra VM特色包括GPU對GPU網路頻寬增加2倍，LLM推論效能提升為最高2倍。在單一叢集內最高可擴充到數千顆GPU以執行AI和HPC任務。

今天Google Cloud並宣布自家Arm架構Axion CPU為基礎的C4A VM服務推出，強調性價比高於別家VM 10%，而比x86 CPU-based VM相比，性價比和能源效率都提升65%和60%，適合執行一般任務如Web或應用伺服器、容器化微服務、開源資料庫、記憶體內快取、資料分析、媒體處理及AI推論應用等。

最後，Google Cloud還宣布Jupiter光纖交換網路（optic circuit network fabric）、以及AI/ML專用的區塊儲存（block storage）服務Hyperdisk ML今天上線。Jupiter光纖交換網路提供原生400 Gb/s連線速度和13.1Pb/s的對分頻寬（bisection bandwidth），號稱可處理地球上所有視訊影像。4月宣布的區塊儲存（block storage）服務Hyperdisk ML今天上線，可用於AI及HPC作業的儲存需求，資料載入速度更快，一個volume可附加2500 instance，每volume集結傳輸量達1.2TB/s，是競爭者100倍有餘。

熱門新聞