新一代基準測試ARC-AGI-2登場，挑戰AI的推理效率與通用能力

ARC-AGI-2基準測試中的組合推理題目之一

由ARC Prize基金會主導，通用人工智慧基準測試ARC-AGI釋出第二版本。ARC-AGI-2相較於前一版進一步提高難度，設計仍維持對人類解題者相對容易，但對人工智慧系統極具挑戰性的特性，目的在於評估人工智慧，在未知情境中的即時推理能力與學習效率，並促進對高效通用系統的研究。

ARC-AGI系列起始於2019年，最初版本ARC-AGI-1即已針對深度學習模型容易依賴記憶與模式擷取的弱點設計題目，要求系統從訓練資料學習需要先具備的核心知識，並在評測資料集中應用這些知識於未見過的新題目。此種設計排除了純記憶或擬合的可能，需具備基本流動智力（Fluid Intelligence）才能通過測驗。

ARC-AGI-2所有測試任務均由超過400名一般參與者的控制實驗，確認至少兩位受試者能在兩次以內完成，這與人工智慧系統的評測條件一致，即每題最多兩次作答機會。官方指出，純粹基於大語言模型的系統如GPT-4.5，在ARC-AGI-2的公用測試集表現為0％通過率，顯示現行主流模型在沒有事先訓練的情況下，無法對這類具有隱含邏輯規則與語意變化的任務做出正確的反應。

ARC團隊根據測試結果，歸納出人工智慧目前的三項明顯困難，首先，符號詮釋方面，人工智慧系統能辨識圖形對稱與圖像變化，但無法理解符號背後的語意或邏輯功能；其次，在組合推理（Compositional Reasoning）上，當題目需要同時套用多組規則或這些規則彼此影響時，現行模型容易出錯；第三，情境式規則應用也是困難點，模型傾向於對表面模式過度擬合，而缺乏根據上下文靈活調整規則運用的能力。

目前先進模型在ARC-AGI-1與ARC-AGI-2之間的表現差異，清楚呈現出模型在處理更高層次推理任務時的不足。以OpenAI的o3-low系統為例，在ARC-AGI-1中可達75.7％的通過率，但在ARC-AGI-2中的得分僅剩約4％，而GPT-4.5等純語言模型在新版本更是完全無法作答成功。

ARC-AGI-2也正式納入效率評估指標，將解題成本列為與通過率同等重要的衡量面向。根據官方資料，人類解題成本約為每題17美元，而OpenAI o3系列系統需花費約200美元以上資源才能完成極少量題目，突顯出解得出來與解得有效率之間的落差，也是ARC-AGI-2試圖呈現的核心問題。ARC團隊強調，真正的智慧不應僅止於問題能否解決，而是能否以近似人類的資源使用效率快速做出正確判斷。

熱門新聞