AWS
每年的AWS re:Invent全球大會,都有個慣例,由AWS執行長在主題演講中,一口氣揭露年度戰略和旗下產品新突破。
今年也不例外,新上任的AWS執行長Matt Garman在12月3日的主題演講中,不只談起AWS過去18年來的服務發展基石「運算、儲存、資料庫和AI推論」,還點出:「今日,運算面臨的最大問題是AI,特別是生成式AI。」意味著,AWS運算服務新一年的發展策略,就是滿足生成式AI需求,他也在接下來的演講中,說明AWS如何實現這目標。
雲端運算亮點1 滿足數十億參數模型訓練的執行個體
Matt Garman自己是AWS運算部門出身,曾任AWS運算服務Amazon EC2團隊主管多年。
他回顧,AWS運算服務自2006推出第一代EC2執行個體(編按:執行個體是指在雲端環境中執行的虛擬機器)後,每年都有新進展,比如前幾年揭露的Nitro系統、去年問世的Graviton4處理器,前者不只突破虛擬化基礎設施架構,將綁在一起的基礎設施管理功能分解、卸載到專用硬體和軟體上,把伺服器資源交給執行個體,大幅減少執行成本,後者則是更強更節能的處理器,用來支援不少雲端運算新服務,廣受市場好評。
但即便有這樣的成績,Matt Garman認為,AWS目前還面臨一道嚴峻的運算課題,也就是生成式AI的運算需求,特別是大型語言模型(LLM)、擴散模型和高效能深度學習模型等模型訓練的運算資源需求。
也由於,目前絕大多數的AI應用都仰賴GPU算力,為因應更強大的模型算力需求,AWS進一步延伸自己與GPU大廠Nvidia十多年的合作,在今年大會中揭露了新一代P6系列EC2執行個體。這個P6執行個體,將採用Nvidia最新的Blackwell GPU,「預計2025年上市,提供比目前GPU執行個體快上2.5倍的運算能力。」
不只與異業聯手開發,Matt Garman還揭露,AWS自研AI加速晶片Trainuim2驅動的EC2執行個體Amazon EC2 Trn2 Instances正式上架了,先從美國東部區域開始提供。
這個執行個體專為生成式AI和深度學習設計,尤其是為LLM等大型模型訓練所設計,效能比目前的GPU EC2執行個體好上3到4成。
其中,單一個EC2 Trn2執行個體,由16顆Trainium2晶片組成,由NeuronLink高頻寬高速連接,可提供低延遲的20.8 pflops算力,適合用來訓練和部署數十億參數規模的模型。
但如果AI模型規模更大,需要更多算力呢?
雲端運算亮點2 滿足兆級參數模型訓練的執行個體
AWS還有一手,也就是Matt Garman在大會中亮相的另一款執行個體Amazon EC2 Trn2 UltraServers預覽版,能滿足大模型訓練和部署需求。
AWS公用運算部門資深副總裁Peter DeSantis在今年大會中秀出實體Trn2 UltraServers伺服器,對應AWS新推出的EC2 Trn2 UltraServers執行個體預覽版,可滿足兆級參數模型的訓練、部署算力需求。(圖片來源/AWS)
這個Trn2 UltraServers以NeuronLink高速連接4臺Trn2伺服器,搭載64顆Trainium2晶片,形成一櫃大型伺服器,可分別提供83.2 pflops和332.8 pflops的密集與稀疏運算效能。AWS公用運算部門資深副總裁Peter DeSantis還在大會首日現場,秀出實體的Trn2 UltraServers伺服器機櫃。
使用者可以運用這臺伺服器的雲端算力資源,來擴展生成式AI工作負載,像是訓練兆級參數的大模型,也能用來加速這類規模模型的即時推論工作。
不過,AWS還不滿足於Trn2 UltraServers的算力。Matt Garman更透露,AWS正與專門打造LLM的AI新創Anthropic聯手,正開發一套由多臺Trn2 UltraServers伺服器組成的EC2 UltraCluster運算叢集,並取名為Project Rainier。
「它將由數十萬個Trainium2 晶片組成!」Matt Garman點出,Project Rainier將提供Anthropic目前用來訓練模型的5倍算力。甚至AWS預期,Project Rainier屆時將成為世界上最大的AI運算叢集,供Anthropic用來訓練和部署新一代模型。
AWS運算服務的戰略,還不只如此。
Matt Garman預告,明年,AWS將推出新一代自研AI加速晶片Trainium3,一樣專門為GAI設計。「這將是AWS第一款採用3奈米製程節點,將提供比Trainuim2高出2倍的算力,效能還提高40%,」他說。
從P6系列執行個體、EC2 Trn2執行個體,再到能滿足兆級參數模型訓練和部署的EC2 Trn2 UltraServers,甚至是運算資源規模更上層樓的Project Rainier,正是AWS今年度雲端運算戰略如何滿足GAI需求的實例。
Anthropic為何要用數十萬顆Trainium 2訓練新模型
在今年度re:Invent大會中,Anthropic共同創辦人Tom Brown還現身說法,解釋Anthropic為何相中AWS自研晶片Trainium 2,用來打造下一代超大AI運算叢集。
Tom Brown說明,模型推論速度要夠快,不只靠硬體規格,關鍵還在於伺服器中的收縮陣列(Systolic Arrays)要時時發揮作用。
也就是說,收縮陣列要能持續依序接收模型輸入值,而不會突然卡住、得等待輸入值從記憶體或其他地方送進來。「就好比玩俄羅斯方塊一樣,方塊結合得越緊密,就越有效率、成本也越低,」他如此比喻。
在與AWS解決這個問題的過程中,Anthropic發現,Trainium 2晶片的設計,非常適合執行低階程式語言,而且還能記錄系統中每條指令的執行時間。
這意味著,開發者可以清楚知道,收縮陣列何時正常工作、何時卡住,以及為何卡住,讓核心(Kernel)程式的開發更快更簡單。
也因為Trainium 2晶片的這個優點,Anthropic決定與AWS共同打造新一代運算叢集Project Rainier,將由數十萬個Trainium 2晶片組成,Anthropic還要用來訓練下一代Claude模型。
「這個叢集規模是我們所使用過的算力的5倍之大,」Tom Brown解釋,這意味著,Anthropic的開發速度將更快,而Claude模型使用者,則能以更便宜的價格使用更聰明的模型和AI代理,來執行更重要的專案。
熱門新聞
2024-12-19
2024-11-29
2024-12-16
2024-11-20
2024-11-15
2024-11-15