圖片來源: 

Meta

繼於今年9月開源Llama 3.2的1B與3B模型之後,Meta周四(10/24)釋出了1B與3B模型的量化版,讓模型大小平均減少了56%,記憶體使用量平均減少了41%,模型速度提高了2~4倍,還能降低功耗,以讓這些模型能夠部署到更多的行動裝置上。

Meta說明,他們使用量化感知訓練(Quantization-Aware Training,QAT)與後訓練量化(SpinQuant)兩種方法來量化這兩個模型。前者使用LoRA調節器,於訓練過程中即考慮量化的影響,著重的是模型的準確性,後者則是在模型完成訓練後再進行量化,強調模型的可移植性。

不管是Llama 3.2的1B或3B模型都各自有兩個量化版本,因此總計有4個量化模型,分別是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant,以及Llama 3.2 3B QLoRA與Llama 3.2 3B SpinQuant。

Meta指出,這些量化的模型比非量化(Llama BF16)模型快得多,佔用更少的記憶體,使用更低的功耗,同時還保持與Llama BF16版本幾乎相同的精度。

量化後的Llama 3.2 1B/3B模型儘管只支援8,000個Token的脈絡(原本支援12.8萬個Token),但Meta的評測卻發現,不管是Llama QLoRA或Llama SpinQuant等量化版本的各項基準測試,都與原來的Llama BF16版本相去不遠。

Meta是與合作夥伴共同開發了量化模型,並將這些模型提供給搭載Arm CPU的高通與聯發科的系統單晶片。除了CPU之外,Meta亦計畫透過神經處理單元(NPU)來提升這些量化模型的性能,其合作夥伴已經於開源的行動裝置推論解決方案ExecuTorch上整合了可利用NPU的基礎元件,也正努力於NPU執行這些量化模型。

迄今Meta已於Android OnePlus 12、三星S24+/S22及iOS裝置上測試過這些量化模型,確定它們都可達到相當的準確性。

熱門新聞

Advertisement