Nvidia
Nvidia昨(28)日公布財報,並公布下一代GPU架構Blackwell的執行效能,宣稱執行Llama 2的效能是前代產品的4倍。
Nvidia希望趁財報,為其預計第4季上市的Blackwell平臺晶片包括B100、B200暖場,但報導指出,新晶片因設瑕疵,推出時程可能會延遲到2025年第2季。
Nvidia宣稱,在最新的MLPerf Inference 4.1標竿測試中,Nvidia平臺做過所有資料中心的測試,其中Blackwell平臺產品執行MLPerf最大的LLM工作負載Llama 2 70B的測試效能,比前一代Nvidia H100 Tensor Core GPU快高達4倍,這要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所賜。
最新的MLPerf標竿測試加入新的測試項目。其中包含專家混合(Mixture of Experts,MoE)模型,特別是Mixtral 8x7B模型。MoE模型之所以大行其道,是因為可支援多種任務、回答多種問題的企業開發需求,而且由於每次推論只需啟動幾個專家(而非整個模型),效能也更高。另一方面,LLM的推論應用持續增長,也推升對運算的需求,使多GPU(multi-GPU)運算成為必要。
有鑒於此,Nvidia指出,前代Hopper架構為基礎的Nvidia NVLink互連技術和NV Switch晶片已經支援大型模型的即時推論。而新一代的Blackwell平臺將進一步以72顆GPU及更大的NVLink網域擴展NV Switch晶片的能力。
除了新Blackwell架構,Nvidia並宣稱其H200 GPU搭載推論軟體Triton Inference Server在最近一次MLPerf測試表現,比前一次提升27%。而在邊緣運算平臺上,NVIDIA Jetson AGX Orin SOM(system-on-modules)在執行GPT-J LLM模型的測試中,傳輸量提升6.2倍,而延遲性則改善2.4倍。Nvidia表示,這效能表現讓Jetson平臺很適合於本地執行LLM、視覺transformer模型及Stable Diffusion模型等任務。
熱門新聞
2024-10-23
2024-11-01
2024-09-27
2024-10-30