圖片來源: 

微軟

Meta在微軟Azure上進行PyTorch等AI研發。在Build 2022大會上,微軟和Meta聯合宣布,Meta將以Azure雲端部署AI應用,包括擴大執行機器學習框架PyTorch。

首先Meta AI部門將利用專屬的Azure 叢集執行大規模AI研究任務。這個叢集使用NDm A100 v4 系列虛擬機器,執行5400顆Nvidia A100 Tensor Core 80GB GPU,每VM互聯interconnect頻寬達1.6TB/s,將在去年後展現成果後,再次負擔Meta部分大型AI研究任務。

2021年Meta首度將部分大型AI研究放上使用A100 Tensor Core 80GB GPU的Azure VM。微軟聲稱,這個環境下,每個VM之間GPU對GPU頻寬是其他公有雲業者的4倍,可用於分散式AI訓練。例如Meta就用它來訓練OPT-175B語言模型。微軟也強調NDm A100v4 VM具設定彈性,可自動適合任何規模的叢集,還能動態由數顆GPU擴充為數千顆,並能在實驗中暫停及再續。而在今年,Meta AI團隊又將以Azure執行更多機器學習訓練任務。

此外,Meta也計畫擴大使用微軟的PyTorch on Azure服務。PyTorch是開源Python機器學習框架。Azure將為PyTorch用戶提供NDv4及InfiniBand硬體及完整軟體堆疊。未來幾個月內,微軟計畫打造新的PyTorch開發加速器,以便更容易在Azure上部署PyTorch框架。

此外微軟也表示會提供PyTorch的支援,協助Meta或其他客戶及合作夥伴在公有雲及邊緣裝置上部署PyTorch模型。

熱門新聞

Advertisement