
Meta 今日宣布推出新一代人工智慧 (AI) 平台 Grand Teton,其中包括與 NVIDIA 在設計上的合作。
Meta 基礎設施硬體部門副總裁 Alexis Bjorlin 在 2022 年的 Open Compute Project (OCP,開放運算計畫) 全球大會上表示,與 Meta 前一代 Zion EX 平台相比,Grand Teton 系統搭載了更多記憶體、更高的網路頻寬及更強大的運算能力。
Facebook 將 AI 模型廣泛用於其動態消息、內容推薦與辨識仇恨言論等多項服務及其他許多應用。
Bjorlin 在本屆大會致詞時表示:「我們很高興在今年的大會中向各位介紹這個產品系列的最新成員。」她也感謝 NVIDIA 鼎力協助設計 Grand Teton 系統,以及一直以來對 OCP 大會的支持。
設計用於大規模的資料中心
Meta 以座落於懷俄明州 (Wyoming) 國家公園內高達 4,199 公尺的大提頓峰為自家最新的 AI 平台命名。Grand Teton 使用 NVIDIA H100 Tensor 核心 GPU 來訓練和運行 AI 模型,這些模型的規模與能力迅速增長,需要更龐大的運算能力來因應。
以 NVIDIA Hopper 架構為基礎的 H100 搭載了一個 Transformer 引擎,用於加快處理神經網路的工作,因這些神經網路可以因應自然語言處理、醫療照護、機器人等眾多持續擴大的應用領域,通常被稱為基礎模型。
NVIDIA H100 具有絕佳的效能及能源使用效率。使用 NVIDIA 網路技術將 H100 加速的伺服器和超大規模資料中心數千台伺服器連接時,其能源使用效率比僅使用 CPU 的伺服器高出 300 倍。
NVIDIA 超大規模與高效能運算部門副總裁 Ian Buck 表示:「NVIDIA 為了解決世界上嚴峻的挑戰而設計出 NVIDIA Hopper GPU,實現能源使用效率及效能都更優化的加速運算,同時擴大規模並降低成本。Meta 今日推出搭載 H100 的 Grand Teton 平台,全球各地的系統建置商很快將獲得用於超大規模資料中心運算基礎設施的開放式設計,為各產業的 AI 挹注更強大的助力。」
機器之巔
Meta 表示,Grand Teton 平台與之前的 Zion 系統相比,可提供兩倍的網路頻寬、主機處理器與 GPU 加速器之間的頻寬為四倍。
Bjorlin 表示,加大的網路頻寬讓 Meta 能夠建立更龐大的系統叢集來訓練 AI 模型。Grand Teton 平台還擁有比 Zion 系統更多的記憶體,可以儲存和運行更大規模的 AI 模型。
簡化部署作業、提高系統可靠性
Bjorlin 表示,將這些功能納入一個整合式伺服器將大幅簡化系統部署作業,讓我們能更迅速地安裝和配置機隊,並提高系統可靠性。