Meta公布ChatGPT競爭AI模型LLaMA

以參數而言，Meta的LLaMA有多種規模，分成70億、130億、330億及650億個參數。Meta也提供了LLaMA模型卡（model card）透明度工具，像是標竿測試模型對模型偏差和毒性的評估值，供研究人員了解模型的限制。（圖片來源／Meta Research）

在OpenAI、微軟及Google的語言生成AI（generative AI）模型搏得世人目光之際，身為發展AI模型先驅的Meta也公布了能產生文字的最新AI模型，也準備將之開源。

Meta執行長Mark Zuckerberg周五（2/24）透過臉書公布AI大型語言模型LLaMA（Large Language Model Meta AI）。他表示，大型語言模型已顯示產生文字、對話、為文章做摘要、以及其他更複雜任務如解決數學定理或預測蛋白質結構的潛力。Meta將把LLaMA模型開放給AI研究社群，供研究人員進行不同領域研究。

LLaMA是一種較小型基礎模型，可用作訓練更大語言模型。這些模型以大量未標註的資料訓練而成，很適合微調後用於多種任務，減少後續大型模型測試、驗證及探索新使用情境的運算資源需求。

Meta解釋，過去數十億參數的大型自然語言處理（natural language processing，NLP）模型發展出產生創意文字、解決數學定理問題、預測蛋白質結構、回答閱讀理解問題等能力。但是訓練和執行這類大型模型的資源，不是所有人都有，也限制了研究的進展，並造成語言模型的偏見、毒性（toxicity）和產生錯誤資訊。相對的，小型模型是以更多token（小段字詞）訓練，比較容易為特定使用情境重訓練及微調。

Meta最小的模型LLaMA 7B以一兆token訓練、LLaMA 65B及33B則以1.4兆token訓練。此外，他們選擇從20種使用人口最多的語言之文字字詞為訓練輸入，其中以拉丁和西里爾（Cyrillic，一種斯拉夫語）字母為主。

以參數而言，Meta的LLaMA有多種規模，分成70億、130億、330億及650億個參數。Meta也提供了LLaMA模型卡（model card）透明度工具，像是標竿測試模型對模型偏差和毒性的評估值，供研究人員了解模型的限制。

有興趣的研究人員需在Meta網頁申請使用LLaMA。

熱門新聞