小模型可用更長運算時間換取更高精準度，Hugging Face發表測試階段運算擴展的研究

由於目前大型語言模型的效能，主要仰賴大量的訓練運算資源，而正是這種昂貴的成本模式，驅使開發公司尋求替代方案。而Hugging Face的研究顯示，透過測試階段運算擴展（Test-Time Compute Scaling），小型模型在推理過程中給予足夠的運算時間，能針對複雜問題進行多次嘗試或修正，效能不僅提升，甚至可在數學推理等特定任務中超越大型模型。這項成果挑戰了過去以模型規模作為效能提升主要依據的認知，展現了小型模型在資源有效利用下的潛力。

測試階段運算擴展已成為許多研究機構關注的技術，其中DeepMind的研究顯示，藉由動態分配測試階段運算資源，可以讓模型在解決複雜問題時更具效率。DeepMind研究人員提出了使用驗證搜尋解答空間的策略，驗證器能對模型的中間推理解答給出評分，並引導搜尋過程朝正確方向推進。DeepMind的實驗證實，測試階段運算策略能讓小型模型在部分複雜任務中超越其基礎效能。

而Hugging Face的研究更聚焦於開放模型與資源的應用，並提出多樣性驗證樹搜尋（Diverse Verifier Tree Search，DVTS）這種改進驗證器搜尋方法的技術。DVTS有效解決了搜尋過程中的多樣性不足問題，特別是在高運算資源配置下，其生成的解答在準確性和多樣性上表現更佳。透過這些測試階段運算擴展技術，Hugging Face展示小型模型在數學推理等特定任務中，足以挑戰甚至超越大型模型，顛覆過去仰賴模型規模決定效能的傳統觀點。

簡單來說，DeepMind的研究主要說明，透過動態分配測試階段的運算資源，小型模型可以在多一點運算時間下，提升效能並表現得更好。Hugging Face的研究則進一步延伸，提出在某些特定任務中，給小型模型足夠的運算時間，不僅能提升效能，甚至可以超越參數量更大的模型。

Hugging Face的DVTS針對搜尋策略中的多樣性問題進行最佳化，藉由分離多個搜尋樹，提升生成答案的多樣性並避免單一路徑過度主導搜尋過程的現象。在數學基準測試中，小型模型如參數量僅為10億的Llama模型，在應用DVTS策略後，解題表現不僅超越了自身基礎能力，甚至在某些情境中超越了參數量高達70億的大型模型。

不過目前這些技術的發展仍受限制，因為驗證器的能力目前局限於數學和程式碼等可驗證領域，要將這些技術應用於需要主觀判斷，或是難以量化的任務，仍需要更多後續研究。不過從實務角度來看，測試階段運算擴展的成功，對模型效能提升提供了更具成本效益的方法，讓企業能以更少的資源部署更高效的語言模型，特別是在運算能力受限的環境下，如邊緣運算或嵌入式系統等。

熱門新聞