Nvidia公布Blackwell平臺AI推論Llama 2執行效能，為前代GPU 4倍

圖片來源:

Nvidia

Nvidia昨（28）日公布財報，並公布下一代GPU架構Blackwell的執行效能，宣稱執行Llama 2的效能是前代產品的4倍。

Nvidia希望趁財報，為其預計第4季上市的Blackwell平臺晶片包括B100、B200暖場，但報導指出，新晶片因設瑕疵，推出時程可能會延遲到2025年第2季。

Nvidia宣稱，在最新的MLPerf Inference 4.1標竿測試中，Nvidia平臺做過所有資料中心的測試，其中Blackwell平臺產品執行MLPerf最大的LLM工作負載Llama 2 70B的測試效能，比前一代Nvidia H100 Tensor Core GPU快高達4倍，這要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所賜。

最新的MLPerf標竿測試加入新的測試項目。其中包含專家混合（Mixture of Experts，MoE）模型，特別是Mixtral 8x7B模型。MoE模型之所以大行其道，是因為可支援多種任務、回答多種問題的企業開發需求，而且由於每次推論只需啟動幾個專家（而非整個模型），效能也更高。另一方面，LLM的推論應用持續增長，也推升對運算的需求，使多GPU（multi-GPU）運算成為必要。

有鑒於此，Nvidia指出，前代Hopper架構為基礎的Nvidia NVLink互連技術和NV Switch晶片已經支援大型模型的即時推論。而新一代的Blackwell平臺將進一步以72顆GPU及更大的NVLink網域擴展NV Switch晶片的能力。

除了新Blackwell架構，Nvidia並宣稱其H200 GPU搭載推論軟體Triton Inference Server在最近一次MLPerf測試表現，比前一次提升27%。而在邊緣運算平臺上，NVIDIA Jetson AGX Orin SOM（system-on-modules）在執行GPT-J LLM模型的測試中，傳輸量提升6.2倍，而延遲性則改善2.4倍。Nvidia表示，這效能表現讓Jetson平臺很適合於本地執行LLM、視覺transformer模型及Stable Diffusion模型等任務。

熱門新聞