阿里巴巴Qwen Team釋出強調推論能力的QwQ-32B-Preview,官方數據顯示在某些數學能力基準測試上的表現,優於OpenAI的o1-preview。(圖片來源/阿里巴巴)

阿里巴巴的Qwen Team本周釋出了QwQ-32B-Preview,這是一個具備325億個參數,脈絡長度為32,768個Token,強調推論能力的實驗性研究模型,在AIME及MATH-500等數學能力基準測試上的表現,勝過了OpenAI的o1-preview,在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。

Qwen團隊指出,藉由深入探索及無數試驗,發現當模型有足夠的時間思考、質疑及反射時,它對數學與程式碼的理解就會深化,這種細致的反思與自我質疑的過程,令模型能夠取得解決複雜問題的突破性進展,並在許多測試上取得卓越的成績,像是評測高階科學問題解決能力的GPQA,涵蓋算數、代數、幾何與概率等中學數學的AIME,包含500個測試樣本的MATH-500,以及實際生成程式碼的LiveCodeBench。

QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成績則是65.2及50,低於o1-preview的72.3及53.6。

不過,QwQ-32B-Preview模型目前仍有許多問題,包括它可能會在回答中使用不同的語言,影響表達的連異性;在處理複雜的邏輯問題時,偶爾會落入無盡的循環;可能產生不恰當或具偏見的回答;除了數學及程式碼之外,它在其它領域仍有進步空間。

此外,根據TechCrunch的報導,由於這是中國製的模型,因此已自行內建各種符合該國政策的審核機制,例如它不會回應針對天安門事件的詢問,還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現,由中國快手所建置的影片生成模型Kling,也會拒絕生成有關中國國家主席習近平的影片。

熱門新聞

Advertisement