回顧AI加速運算晶片的開發熱潮,過去十年之間率先受到關注的產品,當屬雲端服務業者Google Cloud專為機器學習處理而設計的訂製型ASIC晶片,名為張量處理器(Tensor Processing Unit,TPU),在2016年5月推出,目前已發展至第五代技術,因為2023年下半他們陸續發表兩款產品。

其中之一是TPU v5e,於8月底舉行的Next 2023年度用戶大會推出預覽版本,11月初正式上線,Google Cloud強調這是歷來成本效益最高、適合最多種用途、延展性最高的TPU。

  

所謂的高成本效益,是指相較於TPU v4,同樣面對大型語言模型與生成式AI模型的處理,TPU v5e具有2倍的單位成本AI訓練效能,以及2.5倍的單位成本AI推論效能,AI推論延遲度可降低1.7倍。Google Cloud強調,TPU v5e成本不到TPU v4的一半,能讓更多組織訓練與部署更大、更複雜的AI模型。(TPU v5e每個加速器每小時1.2美元,TPU v4每個加速器每小時3.22美元)


關於多用途,是指TPU v5e能夠整合自家Google Kubernetes Engine(GKE)、Vertex AI平臺,以及Pytorch、JAX、TensorFlow等多種AI應用框架,同時也能搭配常見的開放原始碼AI工具,像是Hugging Face的Transformers與Accelerate、PyTorch Lightning、Ray。

以GKE支援Cloud TPU的功能而言,對於執行在Cloud TPU v5e與Cloud TPU v4的大規模AI工作負載,用戶可透過GKE進行管理,充分運用GKE內建的自動擴展規模、工作負載調度指揮,並且使用多達1.5萬個節點組成的叢集環境。

在高延展性的展現上,用戶可在單座TPU Pod設置1到256個TPU v5e加速器,而且支援8種拓樸部署架構,匯聚起來的INT8整數運算效能,最高達到100 petaOps,以廣泛因應不同規模的大型語言模型與生成式AI模型的處理。

    

到了9月中,Google Cloud公布TPU v5e用於GPT-J大型語言模型(60億參數)的訓練測試結果,根據他們的分析,單位成本效能可達到TPU v4的2.7倍。

11月TPU v5e進入正式上線階段,適逢MLCommon揭露MLPerf Training 3.1效能測試結果,也再度呈現這款AI加速器的成本效益。

對此,Google Cloud提交了4,096個TPU v5e用於GPT-3大型語言模型(1,750億參數)的訓練,延遲度表現為44.68,而綜合上述數據與內部測試數據計算,他們發現,TPU v5e的單位成本效能可達到TPU v4的2.3倍。

  

值得注意的是,TPU v5e之所以搭配4,096個,其中一個目的是為了展現TPU v5e內建的多切片訓練技術(Multislice Training),2023年8月Google Cloud開放用戶預覽時,曾提到這項即將推出的技術,可協助用戶在擴展AI模型處理時,能夠輕鬆跨越多個實體TPU的邊界,最多可使用數萬個TPU v5e或TPU v4。

Google Cloud表示,過去使用TPU執行AI訓練時,會受限於單一切片所能搭配的TPU數量,舉例來說,使用TPU v4處理時,需將工作負載規模局限在3,072個加速器以內,現在有了多切片訓練技術,開發人員可將工作負載擴展至數萬個加速器,範圍可以是單一Pod的加速器互連,也可以是經由資料中心網路而能跨越多個Pod進行彼此連接。而且這項技術也促成他們得以快速建立新的AI模型PaLM,進而供應客戶使用。

產品資訊

Google Cloud TPU v5e
●原廠:Google Cloud
●建議售價:us-west1區域每個TPU每小時1.2美元
●系統架構:TensorCore核心(4個矩陣乘法單元、1個向量單元、1個純量單元)、高頻寬記憶體
●系統互連頻寬:1,600 Gbps
●高頻寬記憶體類型與容量:16 GB HBM2
●高頻寬記憶體頻寬:819 GB/s
●運算效能:INT8為393 TOPS,BF16為197 TFLOPS
●單座Pod配置:最大容納256個TPU,2D環形網狀互連拓樸架構,資料中心頻寬為6.4 Tbps

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement