【re:Invent 2024現場直擊】AWS執行長揭運算服務新亮點，專為GAI設計推P6、Trn2和Trn2 UltraServer執行個體

AWS執行長Matt Garman今日揭露運算新亮點，包括3款EC2執行個體：P6系列、Trn2和Trn2 UltraServer，後者可供兆級參數的大模型訓練。另外，AWS明年將推出下一代自研GAI加速晶片Trainium3。

圖片來源:

攝影／王若樸

AWS執行長Matt Garman在今年度re:Invent 2024技術年會中揭露運算新亮點，包括由Nvidia Blackwell GPU驅動的P6系列EC2執行個體、Amazon EC2 Trn2執行個體、Trn2 UltraServer執行個體，都是為生成式AI（GAI）專門設計，可提供更快更有效率的算力。

Matt Garman還透露，AWS正與AI新創Anthropic共同開發Project Rainier，也就是由數十萬顆Trainium2組成的UltraServer運算叢集。他也預告，明年將推出新一代Trainium3自研GAI加速晶片。

專為生成式AI設計的執行個體和下一代GAI加速晶片

在今日主題演講中，Matt Garman點出，運算、儲存、資料庫和AI推論，是AWS發展策略的4大重要基石。而就運算來說，AWS每年都有新進展，比如最早推出的EC2執行個體（編按：執行個體是指在雲端環境中執行的虛擬機器）、前幾年推出的Nitro系統、最近問世的Graviton4處理器，但，「今日，運算面臨的最大問題是AI，特別是生成式AI。」

Matt Garman說明，目前絕大多數的AI應用，都仰賴GPU算力，而AWS又是提供執行GPU工作負載的環境。「AWS與Nvidia已合作14年，開發不少算力強大的執行個體，」在這個基礎上，Matt Garman今日揭露與Nvidia聯手開發的P6系列EC2執行個體，採用Nvidia最新Blackwell GPU，將於2025年上市，預計提供比目前GPU執行個體快上2.5倍的運算能力。（如下圖）

不只P6，AWS今日也正式推出採用自研AI加速晶片Trainuim2的EC2執行個體：Amazon EC2 Trn2 Instances，專為生成式AI和深度學習設計。這個執行個體的效能，可比目前的GPU EC2執行個體好上3到4成。（如下圖）

其中，單一個Trn2執行個體由16個Trainium2晶片組成，由NeuronLink高頻寬高速連接，可提供低延遲的20.8 pflops算力，適合用來訓練和部署數十億參數的模型。

但如果AI模型更大，需要更多算力呢？

Matt Garman說，今日揭露的Amazon EC2 Trn2 UltraServers執行個體預覽版，就能滿足大模型訓練和部署需求。這個Trn2 UltraServers由4個Trn2執行個體組成，一樣以NeuronLink高速連接，搭載64顆Trainium2晶片，可提供83.2 pflops和332.8 pflops的密集與稀疏運算效能。（如下圖）

（圖片來源：AWS）

這個Trn2 UltraServer執行個體，適合用來訓練兆級參數的大模型。

Matt Garman也揭露，AWS聯手AI新創Anthropic，正共同打造名為Project Rainier的Trainium2 UltraServer運算叢集，預計使用數十萬顆Trainium2晶片，將提供5倍Anthropic目前用來訓練模型的算力。AWS預計，Project Rainier屆時將成為世界上最大的AI運算叢集。

關於AWS運算基石的更新，還不只如此。

Matt Garman預告，明年AWS將推出新一代自研AI加速晶片Trainium3，專門為GAI設計。「這將是AWS第一款採用3奈米製程節點，將提供比Trainuim2高出2倍的算力，效能還提高40%。」

熱門新聞