【AWS GAI戰略2】訓練兆級參數模型沒問題！AWS揭3款雲端運算新服務迎戰GAI

圖片來源:

AWS

每年的AWS re:Invent全球大會，都有個慣例，由AWS執行長在主題演講中，一口氣揭露年度戰略和旗下產品新突破。

今年也不例外，新上任的AWS執行長Matt Garman在12月3日的主題演講中，不只談起AWS過去18年來的服務發展基石「運算、儲存、資料庫和AI推論」，還點出：「今日，運算面臨的最大問題是AI，特別是生成式AI。」意味著，AWS運算服務新一年的發展策略，就是滿足生成式AI需求，他也在接下來的演講中，說明AWS如何實現這目標。

雲端運算亮點1 滿足數十億參數模型訓練的執行個體

Matt Garman自己是AWS運算部門出身，曾任AWS運算服務Amazon EC2團隊主管多年。

他回顧，AWS運算服務自2006推出第一代EC2執行個體（編按：執行個體是指在雲端環境中執行的虛擬機器）後，每年都有新進展，比如前幾年揭露的Nitro系統、去年問世的Graviton4處理器，前者不只突破虛擬化基礎設施架構，將綁在一起的基礎設施管理功能分解、卸載到專用硬體和軟體上，把伺服器資源交給執行個體，大幅減少執行成本，後者則是更強更節能的處理器，用來支援不少雲端運算新服務，廣受市場好評。

但即便有這樣的成績，Matt Garman認為，AWS目前還面臨一道嚴峻的運算課題，也就是生成式AI的運算需求，特別是大型語言模型（LLM）、擴散模型和高效能深度學習模型等模型訓練的運算資源需求。

也由於，目前絕大多數的AI應用都仰賴GPU算力，為因應更強大的模型算力需求，AWS進一步延伸自己與GPU大廠Nvidia十多年的合作，在今年大會中揭露了新一代P6系列EC2執行個體。這個P6執行個體，將採用Nvidia最新的Blackwell GPU，「預計2025年上市，提供比目前GPU執行個體快上2.5倍的運算能力。」

不只與異業聯手開發，Matt Garman還揭露，AWS自研AI加速晶片Trainuim2驅動的EC2執行個體Amazon EC2 Trn2 Instances正式上架了，先從美國東部區域開始提供。

這個執行個體專為生成式AI和深度學習設計，尤其是為LLM等大型模型訓練所設計，效能比目前的GPU EC2執行個體好上3到4成。

其中，單一個EC2 Trn2執行個體，由16顆Trainium2晶片組成，由NeuronLink高頻寬高速連接，可提供低延遲的20.8 pflops算力，適合用來訓練和部署數十億參數規模的模型。

但如果AI模型規模更大，需要更多算力呢？

雲端運算亮點2 滿足兆級參數模型訓練的執行個體

AWS還有一手，也就是Matt Garman在大會中亮相的另一款執行個體Amazon EC2 Trn2 UltraServers預覽版，能滿足大模型訓練和部署需求。

AWS公用運算部門資深副總裁Peter DeSantis在今年大會中秀出實體Trn2 UltraServers伺服器，對應AWS新推出的EC2 Trn2 UltraServers執行個體預覽版，可滿足兆級參數模型的訓練、部署算力需求。（圖片來源／AWS）

這個Trn2 UltraServers以NeuronLink高速連接4臺Trn2伺服器，搭載64顆Trainium2晶片，形成一櫃大型伺服器，可分別提供83.2 pflops和332.8 pflops的密集與稀疏運算效能。AWS公用運算部門資深副總裁Peter DeSantis還在大會首日現場，秀出實體的Trn2 UltraServers伺服器機櫃。

使用者可以運用這臺伺服器的雲端算力資源，來擴展生成式AI工作負載，像是訓練兆級參數的大模型，也能用來加速這類規模模型的即時推論工作。

不過，AWS還不滿足於Trn2 UltraServers的算力。Matt Garman更透露，AWS正與專門打造LLM的AI新創Anthropic聯手，正開發一套由多臺Trn2 UltraServers伺服器組成的EC2 UltraCluster運算叢集，並取名為Project Rainier。

「它將由數十萬個Trainium2 晶片組成！」Matt Garman點出，Project Rainier將提供Anthropic目前用來訓練模型的5倍算力。甚至AWS預期，Project Rainier屆時將成為世界上最大的AI運算叢集，供Anthropic用來訓練和部署新一代模型。

AWS運算服務的戰略，還不只如此。

Matt Garman預告，明年，AWS將推出新一代自研AI加速晶片Trainium3，一樣專門為GAI設計。「這將是AWS第一款採用3奈米製程節點，將提供比Trainuim2高出2倍的算力，效能還提高40%，」他說。

從P6系列執行個體、EC2 Trn2執行個體，再到能滿足兆級參數模型訓練和部署的EC2 Trn2 UltraServers，甚至是運算資源規模更上層樓的Project Rainier，正是AWS今年度雲端運算戰略如何滿足GAI需求的實例。

Anthropic為何要用數十萬顆Trainium 2訓練新模型

在今年度re:Invent大會中，Anthropic共同創辦人Tom Brown還現身說法，解釋Anthropic為何相中AWS自研晶片Trainium 2，用來打造下一代超大AI運算叢集。

Tom Brown說明，模型推論速度要夠快，不只靠硬體規格，關鍵還在於伺服器中的收縮陣列（Systolic Arrays）要時時發揮作用。

也就是說，收縮陣列要能持續依序接收模型輸入值，而不會突然卡住、得等待輸入值從記憶體或其他地方送進來。「就好比玩俄羅斯方塊一樣，方塊結合得越緊密，就越有效率、成本也越低，」他如此比喻。

在與AWS解決這個問題的過程中，Anthropic發現，Trainium 2晶片的設計，非常適合執行低階程式語言，而且還能記錄系統中每條指令的執行時間。

這意味著，開發者可以清楚知道，收縮陣列何時正常工作、何時卡住，以及為何卡住，讓核心（Kernel）程式的開發更快更簡單。

也因為Trainium 2晶片的這個優點，Anthropic決定與AWS共同打造新一代運算叢集Project Rainier，將由數十萬個Trainium 2晶片組成，Anthropic還要用來訓練下一代Claude模型。

「這個叢集規模是我們所使用過的算力的5倍之大，」Tom Brown解釋，這意味著，Anthropic的開發速度將更快，而Claude模型使用者，則能以更便宜的價格使用更聰明的模型和AI代理，來執行更重要的專案。

相關報導

熱門新聞