Meta開發10億以下參數量的小型LLM模型MobileLLM

圖片來源:

GitHub

大廠持續投入終端裝置上的AI模型開發。Llama模型家族獲得眾多開發人員使用後，Meta本周稍早又公布可在行動裝置上執行，參數量不到10億的新AI模型家族。

由於在雲端執行上百甚至上千億參數的大型語言模型（LLM）增加雲端運算成本及延遲性問題，推升了筆電或手機等行動裝置端上執行LLM的運行需求。Meta集結旗下Meta Reality Labs、PyTorch與Meta AI Research（FAIR）部門研發新訓練方法，建立參數量僅有1.25億、3.5億的新式模型MobileLLM。

Meta研究小組公布的論文說明該公司優化小型LLM的創新方法。他們認為，對小模型而言，模型的深度比廣度來得重要，他們採取「深而精簡」（deep- and-thin）的模型架構更能以極高效能萃取抽象概念。他們採用內嵌共享（embedding sharing）技術實作出群組查詢注意力（Grouped Query Attention，GQA）方法用於小型LLM，以便最大化權重利用率。此外，他們還發展權重共享的新方法，能提升減少記憶體區塊（block）運算次數，進一步降低AI模型運算延遲性。

研究人員將其訓練出的MobileLLM 125M/350M和參數量相當的State of the Art（SOTA）模型如Cerebras、OPT、BLOOM等進行對話標竿測試。在零樣本（zero-shot）測試中MobileLLM 125M/350M比SOTA模型的平均準確率高出2.7%/4.3%。研究人員使用權重共享方法訓練出的MobileLLM 125M/350M版本，名為MobileLLM LS-125M/350M，還可以將準確率分別再向上提升0.7%及0.8%。

圖片來源_arXiv:2402.14905

MobileLLM 125M/350M在聊天和API呼叫任務中，效能大幅超越參數量相當的小型LLM。其中，在API呼叫任務中，這個新模型得分還比Meta的LLaMA-v2 7B模型大幅領先。

研究人員另外也訓練了其他參數規模的模型，包括MobileLLM-600M/1B/1.5B。

Meta研究小組將MobileLLM的相關資源公開於GitHub及Hugging Face上。

最新研究使Meta也躋身裝置端（on-device）AI模型的供應商之林。今年稍早蘋果公布了OpenELM 270M/450M/1.1B/3B、Google則先後開源了Gemma 2B/7B、Gemm2-9B/27B。

熱門新聞