ARC-AGI 基準即將突破，但創始人警告測試設計存在缺陷

人工智能領域的一個重要基準，ARC-AGI，即“通用人工智能抽象和推理語料庫”，即將取得突破性進展。然而，測試的創始人弗朗索瓦·肖萊（Francois Chollet）警告，儘管成績提高，但這並不意味着我們接近實現通用人工智能(AGI)。他指出，這項測試本身存在設計缺陷，且其所能揭示的並非真正的研究突破。

自2019年肖萊推出ARC-AGI以來，AI系統在測試中始終表現不佳，迄今爲止，表現最好的系統僅能解決不到三分之一的任務。肖萊表示，這主要歸咎於目前人工智能研究過於依賴大型語言模型（LLM）。他指出，LLM雖然在處理大規模數據時能夠進行模式識別，但它們依賴於記憶而非推理，因此很難處理未見過的新情境或進行真正的“推理”。

“LLM模型依賴於從訓練數據中提取模式，而不是進行獨立的推理。它們只是‘記住’了模式而非生成新推理。”肖萊在社交平臺X上的一系列帖子中解釋道。

儘管如此，肖萊並未停止推動AI研究。他和Zapier創始人Mike Knoop於今年6月聯合發起了一項100萬美元的競賽，鼓勵開源AI挑戰ARC-AGI基準。儘管在17，789份參賽作品中，表現最好的AI系統僅得到了55.5%的分數，低於實現“人類水平”所需的85%標準，但肖萊和Knoop仍認爲這是向前邁出的重要一步。

Knoop在博客文章中指出，這一成績並不意味着我們離實現AGI更近，反而凸顯了ARC-AGI中部分任務過於依賴“蠻力”解決方案，未必能爲真正的通用智能提供有效信號。ARC-AGI的設計本意是通過提供複雜、從未見過的任務來測試AI的泛化能力，然而，這些任務能否有效評估AGI仍然存疑。

AI,人工智能，機器人

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

ARC-AGI基準中的任務涉及如拼圖問題等，要求AI根據已知信息推測出未知答案。儘管這些任務看似能推動AI對新情境的適應，但結果表明，現有模型似乎通過大量計算找到了解決方案，而未必展現出真正的智能適應能力。

此外，ARC-AGI的創建者也面臨來自同行的批評，特別是在AGI定義方面的模糊性。OpenAI的一位員工最近表示，如果將AGI定義爲“在大多數任務上比大多數人類表現更好”的人工智能，那麼AGI實際上已經實現。然而，肖萊和Knoop則認爲，ARC-AGI基準的現有設計尚未完全實現這一目標。

展望未來，肖萊和Knoop計劃發佈第二代ARC-AGI基準，並將在2025年舉行新的競賽，以解決當前測試中的不足。他們表示，新的基準將更加聚焦於推動AI研究向更加重要的方向發展，加速AGI的實現進程。

然而，修復現有基準並非易事。肖萊和Knoop的努力表明，定義人工智能的智能，尤其是在通用智能領域，仍然是一項艱鉅而複雜的任務。

ARC-AGI 基準即將突破，但創始人警告測試設計存在缺陷

相關推薦

全行業首創！復旦系團隊發佈時空一體世界動作模型，半年豪斬 5 輪融資

OpenAI聯合創始人Andrej Karpathy宣佈加盟Anthropic，發力下一代LLM研發

國產大模型新動向：MiniMax 啓動「10x Team」計劃，懸賞全球頂尖專家

未雨綢繆：Anthropic 成立官方智庫，應對 AGI 時代的社會衝擊

Claude正式進軍醫療領域！Anthropic推出HIPAA合規AI助手，賦能醫患雙方

ARC-AGI 基準即將突破，但創始人警告測試設計存在缺陷

相關推薦

全行業首創！復旦系團隊發佈時空一體世界動作模型，半年豪斬 5 輪融資

OpenAI聯合創始人Andrej Karpathy宣佈加盟Anthropic，發力下一代LLM研發

國產大模型新動向：MiniMax 啓動「10x Team」計劃，懸賞全球頂尖專家

​未雨綢繆：Anthropic 成立官方智庫，應對 AGI 時代的社會衝擊

Claude正式進軍醫療領域！Anthropic推出HIPAA合規AI助手，賦能醫患雙方

未雨綢繆：Anthropic 成立官方智庫，應對 AGI 時代的社會衝擊