Meta釋出Llama 3.2 1B/3B模型的量化版

圖片來源:

Meta

繼於今年9月開源Llama 3.2的1B與3B模型之後，Meta周四（10/24）釋出了1B與3B模型的量化版，讓模型大小平均減少了56%，記憶體使用量平均減少了41%，模型速度提高了2~4倍，還能降低功耗，以讓這些模型能夠部署到更多的行動裝置上。

Meta說明，他們使用量化感知訓練（Quantization-Aware Training，QAT）與後訓練量化（SpinQuant）兩種方法來量化這兩個模型。前者使用LoRA調節器，於訓練過程中即考慮量化的影響，著重的是模型的準確性，後者則是在模型完成訓練後再進行量化，強調模型的可移植性。

不管是Llama 3.2的1B或3B模型都各自有兩個量化版本，因此總計有4個量化模型，分別是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant，以及Llama 3.2 3B QLoRA與Llama 3.2 3B SpinQuant。

Meta指出，這些量化的模型比非量化（Llama BF16）模型快得多，佔用更少的記憶體，使用更低的功耗，同時還保持與Llama BF16版本幾乎相同的精度。

量化後的Llama 3.2 1B/3B模型儘管只支援8,000個Token的脈絡（原本支援12.8萬個Token），但Meta的評測卻發現，不管是Llama QLoRA或Llama SpinQuant等量化版本的各項基準測試，都與原來的Llama BF16版本相去不遠。

Meta是與合作夥伴共同開發了量化模型，並將這些模型提供給搭載Arm CPU的高通與聯發科的系統單晶片。除了CPU之外，Meta亦計畫透過神經處理單元（NPU）來提升這些量化模型的性能，其合作夥伴已經於開源的行動裝置推論解決方案ExecuTorch上整合了可利用NPU的基礎元件，也正努力於NPU執行這些量化模型。

迄今Meta已於Android OnePlus 12、三星S24+/S22及iOS裝置上測試過這些量化模型，確定它們都可達到相當的準確性。

熱門新聞