ARC-AGI-2基準測試中的組合推理題目之一

由ARC Prize基金會主導,通用人工智慧基準測試ARC-AGI釋出第二版本。ARC-AGI-2相較於前一版進一步提高難度,設計仍維持對人類解題者相對容易,但對人工智慧系統極具挑戰性的特性,目的在於評估人工智慧,在未知情境中的即時推理能力與學習效率,並促進對高效通用系統的研究。

ARC-AGI系列起始於2019年,最初版本ARC-AGI-1即已針對深度學習模型容易依賴記憶與模式擷取的弱點設計題目,要求系統從訓練資料學習需要先具備的核心知識,並在評測資料集中應用這些知識於未見過的新題目。此種設計排除了純記憶或擬合的可能,需具備基本流動智力(Fluid Intelligence)才能通過測驗。

ARC-AGI-2所有測試任務均由超過400名一般參與者的控制實驗,確認至少兩位受試者能在兩次以內完成,這與人工智慧系統的評測條件一致,即每題最多兩次作答機會。官方指出,純粹基於大語言模型的系統如GPT-4.5,在ARC-AGI-2的公用測試集表現為0%通過率,顯示現行主流模型在沒有事先訓練的情況下,無法對這類具有隱含邏輯規則與語意變化的任務做出正確的反應。

ARC團隊根據測試結果,歸納出人工智慧目前的三項明顯困難,首先,符號詮釋方面,人工智慧系統能辨識圖形對稱與圖像變化,但無法理解符號背後的語意或邏輯功能;其次,在組合推理(Compositional Reasoning)上,當題目需要同時套用多組規則或這些規則彼此影響時,現行模型容易出錯;第三,情境式規則應用也是困難點,模型傾向於對表面模式過度擬合,而缺乏根據上下文靈活調整規則運用的能力。

目前先進模型在ARC-AGI-1與ARC-AGI-2之間的表現差異,清楚呈現出模型在處理更高層次推理任務時的不足。以OpenAI的o3-low系統為例,在ARC-AGI-1中可達75.7%的通過率,但在ARC-AGI-2中的得分僅剩約4%,而GPT-4.5等純語言模型在新版本更是完全無法作答成功。

ARC-AGI-2也正式納入效率評估指標,將解題成本列為與通過率同等重要的衡量面向。根據官方資料,人類解題成本約為每題17美元,而OpenAI o3系列系統需花費約200美元以上資源才能完成極少量題目,突顯出解得出來與解得有效率之間的落差,也是ARC-AGI-2試圖呈現的核心問題。ARC團隊強調,真正的智慧不應僅止於問題能否解決,而是能否以近似人類的資源使用效率快速做出正確判斷。

熱門新聞

Advertisement