人工智能領域的一個重要基準,ARC-AGI,即“通用人工智能抽象和推理語料庫”,即將取得突破性進展。然而,測試的創始人弗朗索瓦·肖萊(Francois Chollet)警告,儘管成績提高,但這並不意味着我們接近實現通用人工智能(AGI)。他指出,這項測試本身存在設計缺陷,且其所能揭示的並非真正的研究突破。

自2019年肖萊推出ARC-AGI以來,AI系統在測試中始終表現不佳,迄今爲止,表現最好的系統僅能解決不到三分之一的任務。肖萊表示,這主要歸咎於目前人工智能研究過於依賴大型語言模型(LLM)。他指出,LLM雖然在處理大規模數據時能夠進行模式識別,但它們依賴於記憶而非推理,因此很難處理未見過的新情境或進行真正的“推理”。

“LLM模型依賴於從訓練數據中提取模式,而不是進行獨立的推理。它們只是‘記住’了模式而非生成新推理。”肖萊在社交平臺X上的一系列帖子中解釋道。

QQ20241210-104353.png

儘管如此,肖萊並未停止推動AI研究。他和Zapier創始人Mike Knoop於今年6月聯合發起了一項100萬美元的競賽,鼓勵開源AI挑戰ARC-AGI基準。儘管在17,789份參賽作品中,表現最好的AI系統僅得到了55.5%的分數,低於實現“人類水平”所需的85%標準,但肖萊和Knoop仍認爲這是向前邁出的重要一步。

Knoop在博客文章中指出,這一成績並不意味着我們離實現AGI更近,反而凸顯了ARC-AGI中部分任務過於依賴“蠻力”解決方案,未必能爲真正的通用智能提供有效信號。ARC-AGI的設計本意是通過提供複雜、從未見過的任務來測試AI的泛化能力,然而,這些任務能否有效評估AGI仍然存疑。

AI,人工智能,機器人

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

ARC-AGI基準中的任務涉及如拼圖問題等,要求AI根據已知信息推測出未知答案。儘管這些任務看似能推動AI對新情境的適應,但結果表明,現有模型似乎通過大量計算找到了解決方案,而未必展現出真正的智能適應能力。

此外,ARC-AGI的創建者也面臨來自同行的批評,特別是在AGI定義方面的模糊性。OpenAI的一位員工最近表示,如果將AGI定義爲“在大多數任務上比大多數人類表現更好”的人工智能,那麼AGI實際上已經實現。然而,肖萊和Knoop則認爲,ARC-AGI基準的現有設計尚未完全實現這一目標。

展望未來,肖萊和Knoop計劃發佈第二代ARC-AGI基準,並將在2025年舉行新的競賽,以解決當前測試中的不足。他們表示,新的基準將更加聚焦於推動AI研究向更加重要的方向發展,加速AGI的實現進程。

然而,修復現有基準並非易事。肖萊和Knoop的努力表明,定義人工智能的智能,尤其是在通用智能領域,仍然是一項艱鉅而複雜的任務。