Meta公布輕巧版多語言模型Llama 3.3

圖片來源:

Hugging Face

Meta上周公布700億參數的Llama 3.3，強調輕巧、更具成本效益，但保有Llama 3.1 4050億參數大語言模型的高效能。

Llama 3.3是多語言大語言模型（multilinguistic large language model），分成預訓練及指令調校模型，前者是以15兆以上字詞訓練，而微調用的資料包含公開指令資料集及超過2,500萬筆合成範例。它可接受文字輸入提示生成文字或程式碼，脈絡長度為128k。Llama 3.3已在Llama 3.3社群授權協議（community license agreement）下開源於GitHub及Hugging Face上。

在模型技術上，Llama 3.3使用最佳化Transformer架構的自我廻歸（auto-regressive）語言模型。其調校版本使用監督式微調（supervised fine-tuning，SFT），並以人類回饋強化學習（reinforcement learning with human feedback，RLHF）以符合人類喜好，而提升其用處和安全性。所有模型都使用群組查詢注意力（Grouped-Query Attention，GQA）提升推論的擴充性。

Meta說明，Llama 3.3為多語言對話應用場景優化，在許多常見產業標竿的效能表現，超越許多現有開源或封閉式對話模型。根據Meta公布的資料，Llama 3.3在多任務語言理解、財務、數學、多任務學習推理等標竿測試中，效能超越Llama 3.1 70B、Amazon Nova、Gemini Pro 1.5、GPT-4o，甚至Llama 3.1 405B。

在適用情境上，Llama 3.3適用於多語言的商用及研究情境。Llama 3.3指令調校的純文字語言模型適合作為助理聊天機器人，而預訓練模型版本則可用於多種自然語言生成任務。其輸出還可用於改良其他模型，包括生成合成資料以及蒸餾，其使用的Llama 3.3社群授權也允許這麼做。但Meta也說明，違反相關法律或法規、或違反「可接受用途政策」、Llama 3.3社群授權的使用都會被禁止。

目前Llama 3.3支援8種語言，包括英文、德語、西語、葡語、義語、法語、泰文和北印度語（Hindi）。但開發人員還是可以在符合授權協議及使用政策之下微調，以用於其他語言。

熱門新聞