Hugging Face
Hugging Face上周公布可在手機上執行的最新一代語言模型SmolLM2家族。
這是繼7月首次問世後,SmolLM家族最新版本,包括參數量135M、360M與1.7B三種規模,其中135M參數模型分成基礎及Instruct版,而360M與1.7B參數模型則分成基礎、Instruct及GGUF(GPT-Generated Unified Format)版,共11個模型,皆以Apache 2.0授權開源。
135M、360M與1.7B都是以公開資料集和Hugging Face編排的資料集如FineWeb-Edu、DCLM和The Stack,以監督式微調(supervised fine-tuning)方法訓練,1.7B版本還多了些數學與程式碼資料集。資料集的量分別為2兆、4兆與11兆字詞。Hugging Face還應用直接偏好優化(Direct Preference Optimization,DPO)演算法來強化。
三個規模的模型訓練的軟體架構皆是Transformer decoder,硬體架構而言,其中135M與360M模型執行於64顆H100的伺服器,而1.7B版本則為256顆H100的環境。
一如第一代,SmolLM2也是可執行在裝置上的輕量級模型,但在指令遵從、知識與理解能力優於第一代。而拜Argilla的資料集如Synth-APIGen-v 0.1之賜,Instruct模型另外還支援改寫、重要摘要、與函式呼叫等任務。
根據Hugging Face的數據,在多項標竿測試上,以SomlLM2-1.7B而言,不但優於第一代,也超過參數量更多的Llama-1B-Instruct及阿里巴巴的Qwen2.5-1.5B-Instruct。
雖然能力更提升,但新一代SmolLM還是有些不足。目前SmolLM2模型只能理解和生成英文內容。此外也還存在事實準確性、邏輯一致性以及偏差等問題。Hugging Face建議使用者只能用於輔助工具,且應格外小心評估其產出內容。
熱門新聞
2024-12-22
2024-12-20
2024-12-22
2024-12-20