攝影/王若樸
AWS執行長Matt Garman在今年度re:Invent 2024技術年會中揭露運算新亮點,包括由Nvidia Blackwell GPU驅動的P6系列EC2執行個體、Amazon EC2 Trn2執行個體、Trn2 UltraServer執行個體,都是為生成式AI(GAI)專門設計,可提供更快更有效率的算力。
Matt Garman還透露,AWS正與AI新創Anthropic共同開發Project Rainier,也就是由數十萬顆Trainium2組成的UltraServer運算叢集。他也預告,明年將推出新一代Trainium3自研GAI加速晶片。
專為生成式AI設計的執行個體和下一代GAI加速晶片
在今日主題演講中,Matt Garman點出,運算、儲存、資料庫和AI推論,是AWS發展策略的4大重要基石。而就運算來說,AWS每年都有新進展,比如最早推出的EC2執行個體(編按:執行個體是指在雲端環境中執行的虛擬機器)、前幾年推出的Nitro系統、最近問世的Graviton4處理器,但,「今日,運算面臨的最大問題是AI,特別是生成式AI。」
Matt Garman說明,目前絕大多數的AI應用,都仰賴GPU算力,而AWS又是提供執行GPU工作負載的環境。「AWS與Nvidia已合作14年,開發不少算力強大的執行個體,」在這個基礎上,Matt Garman今日揭露與Nvidia聯手開發的P6系列EC2執行個體,採用Nvidia最新Blackwell GPU,將於2025年上市,預計提供比目前GPU執行個體快上2.5倍的運算能力。(如下圖)
不只P6,AWS今日也正式推出採用自研AI加速晶片Trainuim2的EC2執行個體:Amazon EC2 Trn2 Instances,專為生成式AI和深度學習設計。這個執行個體的效能,可比目前的GPU EC2執行個體好上3到4成。(如下圖)
其中,單一個Trn2執行個體由16個Trainium2晶片組成,由NeuronLink高頻寬高速連接,可提供低延遲的20.8 pflops算力,適合用來訓練和部署數十億參數的模型。
但如果AI模型更大,需要更多算力呢?
Matt Garman說,今日揭露的Amazon EC2 Trn2 UltraServers執行個體預覽版,就能滿足大模型訓練和部署需求。這個Trn2 UltraServers由4個Trn2執行個體組成,一樣以NeuronLink高速連接,搭載64顆Trainium2晶片,可提供83.2 pflops和332.8 pflops的密集與稀疏運算效能。(如下圖)
(圖片來源:AWS)
這個Trn2 UltraServer執行個體,適合用來訓練兆級參數的大模型。
Matt Garman也揭露,AWS聯手AI新創Anthropic,正共同打造名為Project Rainier的Trainium2 UltraServer運算叢集,預計使用數十萬顆Trainium2晶片,將提供5倍Anthropic目前用來訓練模型的算力。AWS預計,Project Rainier屆時將成為世界上最大的AI運算叢集。
關於AWS運算基石的更新,還不只如此。
Matt Garman預告,明年AWS將推出新一代自研AI加速晶片Trainium3,專門為GAI設計。「這將是AWS第一款採用3奈米製程節點,將提供比Trainuim2高出2倍的算力,效能還提高40%。」
熱門新聞
2025-01-03
2025-01-03
2025-01-03
2025-01-03
2025-01-03