阿里巴巴釋出具備325億個參數的QwQ-32B-Preview模型

阿里巴巴Qwen Team釋出強調推論能力的QwQ-32B-Preview，官方數據顯示在某些數學能力基準測試上的表現，優於OpenAI的o1-preview。（圖片來源／阿里巴巴）

阿里巴巴的Qwen Team本周釋出了QwQ-32B-Preview，這是一個具備325億個參數，脈絡長度為32,768個Token，強調推論能力的實驗性研究模型，在AIME及MATH-500等數學能力基準測試上的表現，勝過了OpenAI的o1-preview，在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。

Qwen團隊指出，藉由深入探索及無數試驗，發現當模型有足夠的時間思考、質疑及反射時，它對數學與程式碼的理解就會深化，這種細致的反思與自我質疑的過程，令模型能夠取得解決複雜問題的突破性進展，並在許多測試上取得卓越的成績，像是評測高階科學問題解決能力的GPQA，涵蓋算數、代數、幾何與概率等中學數學的AIME，包含500個測試樣本的MATH-500，以及實際生成程式碼的LiveCodeBench。

QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90，超越OpenAI o1-preview的44.6及85.5，而它在GPQA及LiveCodeBench的成績則是65.2及50，低於o1-preview的72.3及53.6。

不過，QwQ-32B-Preview模型目前仍有許多問題，包括它可能會在回答中使用不同的語言，影響表達的連異性；在處理複雜的邏輯問題時，偶爾會落入無盡的循環；可能產生不恰當或具偏見的回答；除了數學及程式碼之外，它在其它領域仍有進步空間。

此外，根據TechCrunch的報導，由於這是中國製的模型，因此已自行內建各種符合該國政策的審核機制，例如它不會回應針對天安門事件的詢問，還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現，由中國快手所建置的影片生成模型Kling，也會拒絕生成有關中國國家主席習近平的影片。

熱門新聞