提供2倍以上單位成本效能，Google Cloud第五代TPU登場

回顧AI加速運算晶片的開發熱潮，過去十年之間率先受到關注的產品，當屬雲端服務業者Google Cloud專為機器學習處理而設計的訂製型ASIC晶片，名為張量處理器（Tensor Processing Unit，TPU），在2016年5月推出，目前已發展至第五代技術，因為2023年下半他們陸續發表兩款產品。

其中之一是TPU v5e，於8月底舉行的Next 2023年度用戶大會推出預覽版本，11月初正式上線，Google Cloud強調這是歷來成本效益最高、適合最多種用途、延展性最高的TPU。

所謂的高成本效益，是指相較於TPU v4，同樣面對大型語言模型與生成式AI模型的處理，TPU v5e具有2倍的單位成本AI訓練效能，以及2.5倍的單位成本AI推論效能，AI推論延遲度可降低1.7倍。Google Cloud強調，TPU v5e成本不到TPU v4的一半，能讓更多組織訓練與部署更大、更複雜的AI模型。（TPU v5e每個加速器每小時1.2美元，TPU v4每個加速器每小時3.22美元）

關於多用途，是指TPU v5e能夠整合自家Google Kubernetes Engine（GKE）、Vertex AI平臺，以及Pytorch、JAX、TensorFlow等多種AI應用框架，同時也能搭配常見的開放原始碼AI工具，像是Hugging Face的Transformers與Accelerate、PyTorch Lightning、Ray。

以GKE支援Cloud TPU的功能而言，對於執行在Cloud TPU v5e與Cloud TPU v4的大規模AI工作負載，用戶可透過GKE進行管理，充分運用GKE內建的自動擴展規模、工作負載調度指揮，並且使用多達1.5萬個節點組成的叢集環境。

在高延展性的展現上，用戶可在單座TPU Pod設置1到256個TPU v5e加速器，而且支援8種拓樸部署架構，匯聚起來的INT8整數運算效能，最高達到100 petaOps，以廣泛因應不同規模的大型語言模型與生成式AI模型的處理。

到了9月中，Google Cloud公布TPU v5e用於GPT-J大型語言模型（60億參數）的訓練測試結果，根據他們的分析，單位成本效能可達到TPU v4的2.7倍。

11月TPU v5e進入正式上線階段，適逢MLCommon揭露MLPerf Training 3.1效能測試結果，也再度呈現這款AI加速器的成本效益。

對此，Google Cloud提交了4,096個TPU v5e用於GPT-3大型語言模型（1,750億參數）的訓練，延遲度表現為44.68，而綜合上述數據與內部測試數據計算，他們發現，TPU v5e的單位成本效能可達到TPU v4的2.3倍。

值得注意的是，TPU v5e之所以搭配4,096個，其中一個目的是為了展現TPU v5e內建的多切片訓練技術（Multislice Training），2023年8月Google Cloud開放用戶預覽時，曾提到這項即將推出的技術，可協助用戶在擴展AI模型處理時，能夠輕鬆跨越多個實體TPU的邊界，最多可使用數萬個TPU v5e或TPU v4。

Google Cloud表示，過去使用TPU執行AI訓練時，會受限於單一切片所能搭配的TPU數量，舉例來說，使用TPU v4處理時，需將工作負載規模局限在3,072個加速器以內，現在有了多切片訓練技術，開發人員可將工作負載擴展至數萬個加速器，範圍可以是單一Pod的加速器互連，也可以是經由資料中心網路而能跨越多個Pod進行彼此連接。而且這項技術也促成他們得以快速建立新的AI模型PaLM，進而供應客戶使用。

產品資訊

Google Cloud TPU v5e
●原廠：Google Cloud
●建議售價：us-west1區域每個TPU每小時1.2美元
●系統架構：TensorCore核心（4個矩陣乘法單元、1個向量單元、1個純量單元）、高頻寬記憶體
●系統互連頻寬：1,600 Gbps
●高頻寬記憶體類型與容量：16 GB HBM2
●高頻寬記憶體頻寬：819 GB/s
●運算效能：INT8為393 TOPS，BF16為197 TFLOPS
●單座Pod配置：最大容納256個TPU，2D環形網狀互連拓樸架構，資料中心頻寬為6.4 Tbps

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

熱門新聞