在OpenAI、微軟及Google的語言生成AI(generative AI)模型搏得世人目光之際,身為發展AI模型先驅的Meta也公布了能產生文字的最新AI模型,也準備將之開源。
Meta執行長Mark Zuckerberg周五(2/24)透過臉書公布AI大型語言模型LLaMA(Large Language Model Meta AI)。他表示,大型語言模型已顯示產生文字、對話、為文章做摘要、以及其他更複雜任務如解決數學定理或預測蛋白質結構的潛力。Meta將把LLaMA模型開放給AI研究社群,供研究人員進行不同領域研究。
LLaMA是一種較小型基礎模型,可用作訓練更大語言模型。這些模型以大量未標註的資料訓練而成,很適合微調後用於多種任務,減少後續大型模型測試、驗證及探索新使用情境的運算資源需求。
Meta解釋,過去數十億參數的大型自然語言處理(natural language processing,NLP)模型發展出產生創意文字、解決數學定理問題、預測蛋白質結構、回答閱讀理解問題等能力。但是訓練和執行這類大型模型的資源,不是所有人都有,也限制了研究的進展,並造成語言模型的偏見、毒性(toxicity)和產生錯誤資訊。相對的,小型模型是以更多token(小段字詞)訓練,比較容易為特定使用情境重訓練及微調。
Meta最小的模型LLaMA 7B以一兆token訓練、LLaMA 65B及33B則以1.4兆token訓練。此外,他們選擇從20種使用人口最多的語言之文字字詞為訓練輸入,其中以拉丁和西里爾(Cyrillic,一種斯拉夫語)字母為主。
以參數而言,Meta的LLaMA有多種規模,分成70億、130億、330億及650億個參數。Meta也提供了LLaMA模型卡(model card)透明度工具,像是標竿測試模型對模型偏差和毒性的評估值,供研究人員了解模型的限制。
熱門新聞
2024-12-22
2024-12-20
2024-12-22
2024-12-20