GitHub
在7月發表之後,Meta上周宣布正式開源能在智慧型手機上執行的小語言模型MobileLLM系列。
Meta 4個月前發表這2個參數量小於10億的語言模型MobileLLM 125M及MobileLLM 350M,現在Meta又開發出更大參數量的模型版本,包括MobileLLM-600M/1B/1.5B。
Meta指出,團隊全面考慮了多項設計因素,並整合了SwiGLU激活函式(activation function)、「深而精簡」(deep-and-thin)架構、內嵌共享(embedding sharing)、以及群組查詢注意力(grouped-query attention)機制來開發出MobileLLM模型。
從成果來看,MobileLLM 125M/350M零樣本常識理解任務的準確率,比Cerebras、OPT、BLOOM等State of the Art(SOTA)模型,分別高2.7%和4.3%。根據Meta提供的數據,新增的模型成員如MobileLLM-1.5B,更是打掛GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B與Pythia-2.8B等較大參數量的其他模型。
Meta也強調MobileLLM訓練快速。在32顆Nvidia A100 80G GPU的伺服器環境下,以1T字詞(token)訓練不同參數量的MobileLLM所需天數,1.5B版本只要18天,最小的125M更只需3天。
這些模型都已透過GitHub與Hugging Face開源。
隨著智慧型手機效能日漸強大,以及使用者對高速回應、低延遲、安全性的需求,愈來愈多模型開發商提供小模型。Google有Gemma 2、微軟有Phi 3、OpenAI則有GPT-4o mini,蘋果有DCLM。Hugging Face上周也公布小語言模型SmolLM 2家族。
熱門新聞
2024-08-14
2024-12-22
2024-12-20
2024-12-22