
Hugging Face
Nvidia本周開源Llama-3.1-Nemotron-Ultra-253B-v1模型,宣稱效能和DeepSeek R1相當,但僅一半的參數量。
Llama-3.1-Nemotron-Ultra是Nvidia三月GTC大會上宣布的Llama Nemotron系列。Nano可在PC和邊緣裝置執行、Super可在單一GPU上執行,而Ultra模型則適用於多顆GPU的伺服器。其中Super(49B)以及Nano(8B)也已經開源。
最新發布的Llama-3.1-Nemotron-Ultra是Meta Llama-3.1-405B-Instruct的衍生,為推理、人類聊天偏好、以及RAG和工具呼叫等任務後訓練。Llama-3.1-Nemotron-Ultra支援128K字詞的context length,欲執行推論,最好搭配單一8xH100節點。
Llama-3.1-Nemotron-Ultra能兼顧模型準確性和執行效率(資料吞吐量)。Nvidia利用新的神經架構搜尋(Neural Architecture Search,NAS)技術來降低3.1 Ultra的記憶體大小,可支援大型工作負載並減少執行模型需要的GPU數量,因而可在模型準確性和效率之間取得平衡。此外,利用本方法垂直壓縮本模型,也大幅改善延遲性。
Nvidia說,Llama-3.1-Nemotron-Ultra經過多階段後訓練,來改進其推理及非推理能力。後訓練方法包括為培養數學、編程、推理、聊天做的監督微調階段,以及為推理、聊天與指令遵從而進行的群組關聯政策優化(Group Relative Policy Optimization,GRPO)演算法。
Nvidia也列出Llama-3.1-Nemotron-Ultra和參數兩倍大(6710億參數)的DeepSeek R1、和Llama 4 Behemoth、4000億參數Llama 4 Maverick及Llama 3.1 405B的標竿測試結果比較。其中在科學推理(GPQA Diamond)、複雜運算(AIME 2024)、程式撰寫、指令遵循中,Llama-3.1-Nemotron-Ultra都超越同儕,僅在複雜數學和聊天測試中由DeepSeek R1居冠。在所有項目中,Llama-3.1-Nemotron-Ultra也都大幅超越其源出的Llama 3.1-405B。
Llama-3.1-Nemotron-Ultra現在已可提供商用,可在Hugging Face下載。3.1 Ultra可支援多種應用場景,包含AI代理人系統、聊天機器人、擷取增強生成(RAG)和其他AI應用,也適合一般指令遵循的任務。本模型主要支援英文和程式語言,但也支援德、法、義、葡、西語、泰語及北印度語(Hindi)。