由於目前大型語言模型的效能,主要仰賴大量的訓練運算資源,而正是這種昂貴的成本模式,驅使開發公司尋求替代方案。而Hugging Face的研究顯示,透過測試階段運算擴展(Test-Time Compute Scaling),小型模型在推理過程中給予足夠的運算時間,能針對複雜問題進行多次嘗試或修正,效能不僅提升,甚至可在數學推理等特定任務中超越大型模型。這項成果挑戰了過去以模型規模作為效能提升主要依據的認知,展現了小型模型在資源有效利用下的潛力。

測試階段運算擴展已成為許多研究機構關注的技術,其中DeepMind的研究顯示,藉由動態分配測試階段運算資源,可以讓模型在解決複雜問題時更具效率。DeepMind研究人員提出了使用驗證搜尋解答空間的策略,驗證器能對模型的中間推理解答給出評分,並引導搜尋過程朝正確方向推進。DeepMind的實驗證實,測試階段運算策略能讓小型模型在部分複雜任務中超越其基礎效能。

而Hugging Face的研究更聚焦於開放模型與資源的應用,並提出多樣性驗證樹搜尋(Diverse Verifier Tree Search,DVTS)這種改進驗證器搜尋方法的技術。DVTS有效解決了搜尋過程中的多樣性不足問題,特別是在高運算資源配置下,其生成的解答在準確性和多樣性上表現更佳。透過這些測試階段運算擴展技術,Hugging Face展示小型模型在數學推理等特定任務中,足以挑戰甚至超越大型模型,顛覆過去仰賴模型規模決定效能的傳統觀點。

簡單來說,DeepMind的研究主要說明,透過動態分配測試階段的運算資源,小型模型可以在多一點運算時間下,提升效能並表現得更好。Hugging Face的研究則進一步延伸,提出在某些特定任務中,給小型模型足夠的運算時間,不僅能提升效能,甚至可以超越參數量更大的模型。

Hugging Face的DVTS針對搜尋策略中的多樣性問題進行最佳化,藉由分離多個搜尋樹,提升生成答案的多樣性並避免單一路徑過度主導搜尋過程的現象。在數學基準測試中,小型模型如參數量僅為10億的Llama模型,在應用DVTS策略後,解題表現不僅超越了自身基礎能力,甚至在某些情境中超越了參數量高達70億的大型模型。

不過目前這些技術的發展仍受限制,因為驗證器的能力目前局限於數學和程式碼等可驗證領域,要將這些技術應用於需要主觀判斷,或是難以量化的任務,仍需要更多後續研究。不過從實務角度來看,測試階段運算擴展的成功,對模型效能提升提供了更具成本效益的方法,讓企業能以更少的資源部署更高效的語言模型,特別是在運算能力受限的環境下,如邊緣運算或嵌入式系統等。

熱門新聞

Advertisement