最近一項名爲 “人類終極考試”(HLE)的測試結果讓我們重新審視 AI 的真實能力。根據《自然》雜誌的報道,GPT-4o 在這 2500 道由全球專家出題的測試中,僅獲得了可憐的 2.7 分(滿分 100 分),而表現最好的 AI 模型也僅得 8 分。這一結果讓人質疑,AI 的強大究竟是實打實的實力,還是表面的繁榮?
傳統的 AI 測試越來越無法反映真實能力,主要原因有兩個。一是 “基準飽和”,即 AI 系統已經將常規測試題目背得滾瓜爛熟,得分的高低與真正的理解能力無關;二是 “答案作弊”,很多測試的答案可以直接在網上找到,使得 AI 看似答對問題,但實際上只是依賴於檢索和記憶,而非真正的推理能力。
爲了解決這些問題,HLE 的設計者們集結了來自 50 個國家的近 1000 名專家,確保每道題目都要求深層的專業知識,難度大幅提升。HLE 的題目不僅覆蓋了數學、物理、化學等多個領域,還設定了嚴格的審覈流程,確保題目難度足夠,難以被 AI 輕易破解。比如數學題需要深入邏輯推理,化學題涉及複雜的反應機制,絕不是簡單的檢索就能得到答案。
測試結果一目瞭然:GPT-4o 僅得 2.7 分,Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分別獲得 4.1% 和 4.6% 的準確率,表現最好的 o1 也僅得 8%。這些數據清楚地表明,即便是最新一代的 AI,在面對真正需要深厚專業知識的問題時,依然顯得無能爲力。
通過 HLE 的測試,我們可以看到 AI 的真實能力與傳統基準測試中的高分形成了鮮明對比。這也促使我們重新思考,AI 是否真的如我們想象中那樣聰明,還是隻是一種表象的成功。
