圖片來源: 

Hugging Face

Meta上周公布700億參數的Llama 3.3,強調輕巧、更具成本效益,但保有Llama 3.1 4050億參數大語言模型的高效能。

Llama 3.3是多語言大語言模型(multilinguistic large language model),分成預訓練及指令調校模型,前者是以15兆以上字詞訓練,而微調用的資料包含公開指令資料集及超過2,500萬筆合成範例。它可接受文字輸入提示生成文字或程式碼,脈絡長度為128k。Llama 3.3已在Llama 3.3社群授權協議(community license agreement)下開源於GitHubHugging Face上。

在模型技術上,Llama 3.3使用最佳化Transformer架構的自我廻歸(auto-regressive)語言模型。其調校版本使用監督式微調(supervised fine-tuning,SFT),並以人類回饋強化學習(reinforcement learning with human feedback,RLHF)以符合人類喜好,而提升其用處和安全性。所有模型都使用群組查詢注意力(Grouped-Query Attention,GQA)提升推論的擴充性。

Meta說明,Llama 3.3為多語言對話應用場景優化,在許多常見產業標竿的效能表現,超越許多現有開源或封閉式對話模型。根據Meta公布的資料,Llama 3.3在多任務語言理解、財務、數學、多任務學習推理等標竿測試中,效能超越Llama 3.1 70B、Amazon Nova、Gemini Pro 1.5、GPT-4o,甚至Llama 3.1 405B。

在適用情境上,Llama 3.3適用於多語言的商用及研究情境。Llama 3.3指令調校的純文字語言模型適合作為助理聊天機器人,而預訓練模型版本則可用於多種自然語言生成任務。其輸出還可用於改良其他模型,包括生成合成資料以及蒸餾,其使用的Llama 3.3社群授權也允許這麼做。但Meta也說明,違反相關法律或法規、或違反「可接受用途政策」、Llama 3.3社群授權的使用都會被禁止。

目前Llama 3.3支援8種語言,包括英文、德語、西語、葡語、義語、法語、泰文和北印度語(Hindi)。但開發人員還是可以在符合授權協議及使用政策之下微調,以用於其他語言。

熱門新聞

Advertisement