AWS執行長Matt Garman今日揭露運算新亮點,包括3款EC2執行個體:P6系列、Trn2和Trn2 UltraServer,後者可供兆級參數的大模型訓練。另外,AWS明年將推出下一代自研GAI加速晶片Trainium3。

圖片來源: 

攝影/王若樸

AWS執行長Matt Garman在今年度re:Invent 2024技術年會中揭露運算新亮點,包括由Nvidia Blackwell GPU驅動的P6系列EC2執行個體、Amazon EC2 Trn2執行個體、Trn2 UltraServer執行個體,都是為生成式AI(GAI)專門設計,可提供更快更有效率的算力。

Matt Garman還透露,AWS正與AI新創Anthropic共同開發Project Rainier,也就是由數十萬顆Trainium2組成的UltraServer運算叢集。他也預告,明年將推出新一代Trainium3自研GAI加速晶片。

專為生成式AI設計的執行個體和下一代GAI加速晶片

在今日主題演講中,Matt Garman點出,運算、儲存、資料庫和AI推論,是AWS發展策略的4大重要基石。而就運算來說,AWS每年都有新進展,比如最早推出的EC2執行個體(編按:執行個體是指在雲端環境中執行的虛擬機器)、前幾年推出的Nitro系統、最近問世的Graviton4處理器,但,「今日,運算面臨的最大問題是AI,特別是生成式AI。」

Matt Garman說明,目前絕大多數的AI應用,都仰賴GPU算力,而AWS又是提供執行GPU工作負載的環境。「AWS與Nvidia已合作14年,開發不少算力強大的執行個體,」在這個基礎上,Matt Garman今日揭露與Nvidia聯手開發的P6系列EC2執行個體,採用Nvidia最新Blackwell GPU,將於2025年上市,預計提供比目前GPU執行個體快上2.5倍的運算能力。(如下圖)

不只P6,AWS今日也正式推出採用自研AI加速晶片Trainuim2的EC2執行個體:Amazon EC2 Trn2 Instances,專為生成式AI和深度學習設計。這個執行個體的效能,可比目前的GPU EC2執行個體好上3到4成。(如下圖)

其中,單一個Trn2執行個體由16個Trainium2晶片組成,由NeuronLink高頻寬高速連接,可提供低延遲的20.8 pflops算力,適合用來訓練和部署數十億參數的模型。

但如果AI模型更大,需要更多算力呢?

Matt Garman說,今日揭露的Amazon EC2 Trn2 UltraServers執行個體預覽版,就能滿足大模型訓練和部署需求。這個Trn2 UltraServers由4個Trn2執行個體組成,一樣以NeuronLink高速連接,搭載64顆Trainium2晶片,可提供83.2 pflops和332.8 pflops的密集與稀疏運算效能。(如下圖)


(圖片來源:AWS)

這個Trn2 UltraServer執行個體,適合用來訓練兆級參數的大模型。

Matt Garman也揭露,AWS聯手AI新創Anthropic,正共同打造名為Project Rainier的Trainium2 UltraServer運算叢集,預計使用數十萬顆Trainium2晶片,將提供5倍Anthropic目前用來訓練模型的算力。AWS預計,Project Rainier屆時將成為世界上最大的AI運算叢集。

關於AWS運算基石的更新,還不只如此。

Matt Garman預告,明年AWS將推出新一代自研AI加速晶片Trainium3,專門為GAI設計。「這將是AWS第一款採用3奈米製程節點,將提供比Trainuim2高出2倍的算力,效能還提高40%。」

熱門新聞

Advertisement