圖片來源: 

AWS

AI以高耗能著稱,周二在re:Invent大會上,AWS公布新的資料中心基礎架構元件,包括簡化電子電機設計和多模態冷卻系統,提高AWS執行AI的能源效率。

有鑒於生成式AI應用日益普及,對能源及運算容量需求有增無減,AWS發展了新的節能技術,許多已部署在AWS全球新的資料中心,也逐步部署到現有資料中心。這些新元件整合了能源、冷卻及硬體方面的技術。首先是更簡化的電子電機設計,可降低耗能,同時減低失靈風險,使基礎架構可用性達到99.9999%,使受電子問題影響的機架數量減少89%,而且使可能的失敗點(failure point)數量減少20%。AWS並將備援電源設置離機架近一點,減少風扇數,並使用自然壓力差來排放伺服器熱風,提升伺服器可用電力。

其次,AWS也使用新的冷卻、機架設計及控制系統。其中,AWS新的AI伺服器將使用液冷技術來冷卻高密度運算晶片。他們發展了機械式冷卻方案,現有和新資料中心都已使用liquid-to-chip冷卻系統。但因應某些AWS系統如儲存不支援液冷,新的冷卻系統可同時為AI晶片組提供氣冷和液冷,像是AWS Trainium 2和機架式AI超級電腦方案如Nvidia GB200 NVL 72,以及AWS網路交換機、儲存伺服器等。

最後,AWS新資料中心架構支援高密度AI方案。AWS運用資料和生成式AI優化資料中心機架架設的方式,藉此預測伺服器最有效率的設置方法,現在得以減少浪費的能源量。

AWS說,新資料中心設計可支援AI執行需要的次世代硬體和高密度機架需求,又能彈性支援其他類硬體。現有AWS基礎架構提供750多種Amazon EC2執行個體可以選擇。除了多模態冷卻設計,AWS還有供電系統,可在未來20年支援機架密度成長6倍,之後還能支援3倍成長。

在今年re:Invent大會上,AWS也公布有史以來第一次資料中心的能源使用效率(Power Use Efficiency,PUE)。PUE是資料中心用電效率量測值,1.0為完美,表示所有能源全數用於運算。2023年AWS全球PUE為1.15,最好的站點為1.04。

AWS預期使用簡化電子電機設計,採用新的多模態冷卻系統,以及更有效率的機架設置方法後,AWS的資料中心PUE可望降到1.08。

熱門新聞

Advertisement