正文

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

發布於AI新閒資訊

時間 :Feb 3, 2026

閱讀 :1分鐘

最近一項名爲 “人類終極考試”（HLE）的測試結果讓我們重新審視 AI 的真實能力。根據《自然》雜誌的報道，GPT-4o 在這 2500 道由全球專家出題的測試中，僅獲得了可憐的 2.7 分（滿分 100 分），而表現最好的 AI 模型也僅得 8 分。這一結果讓人質疑，AI 的強大究竟是實打實的實力，還是表面的繁榮？

傳統的 AI 測試越來越無法反映真實能力，主要原因有兩個。一是 “基準飽和”，即 AI 系統已經將常規測試題目背得滾瓜爛熟，得分的高低與真正的理解能力無關；二是 “答案作弊”，很多測試的答案可以直接在網上找到，使得 AI 看似答對問題，但實際上只是依賴於檢索和記憶，而非真正的推理能力。

爲了解決這些問題，HLE 的設計者們集結了來自 50 個國家的近 1000 名專家，確保每道題目都要求深層的專業知識，難度大幅提升。HLE 的題目不僅覆蓋了數學、物理、化學等多個領域，還設定了嚴格的審覈流程，確保題目難度足夠，難以被 AI 輕易破解。比如數學題需要深入邏輯推理，化學題涉及複雜的反應機制，絕不是簡單的檢索就能得到答案。

測試結果一目瞭然：GPT-4o 僅得 2.7 分，Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分別獲得 4.1% 和 4.6% 的準確率，表現最好的 o1 也僅得 8%。這些數據清楚地表明，即便是最新一代的 AI，在面對真正需要深厚專業知識的問題時，依然顯得無能爲力。

通過 HLE 的測試，我們可以看到 AI 的真實能力與傳統基準測試中的高分形成了鮮明對比。這也促使我們重新思考，AI 是否真的如我們想象中那樣聰明，還是隻是一種表象的成功。

OpenAI 宣佈停用 GPT-4o 等多款模型，用戶轉向新一代技術

OpenAI宣佈將停用GPT-4o等舊版模型，標誌着該模型完成歷史使命。GPT-4o曾因對話風格和多模態能力受好評，但公司重心已轉向新一代旗艦模型，GPT-5.2成爲用戶首選。

Jan 30, 2026

197.5k

告別 GPT-4o：OpenAI 宣佈停用多款經典大模型

OpenAI宣佈下月起將停用多款早期模型，包括付費用戶青睞的GPT-4o。該模型於2024年5月推出，以親切對話風格受用戶歡迎，雖在GPT-5發佈後曾短暫下線，後經CEO承諾恢復。此次退役或因使用率下降，OpenAI將引導用戶轉向更新模型。

Jan 30, 2026

171.3k

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

印度AI新星Alpie大模型表現亮眼，在GSM8K數學榜單和SW軟件工程榜單上超越GPT-4o等主流模型，以320億參數實現高效性能，被譽爲印度版“DeepSeek”。

Jan 15, 2026

165.8k

預訓練“卡殼”：SemiAnalysis 爆料 OpenAI 連續兩年半未跑通新前沿大模型

SemiAnalysis報告指出，OpenAI自2024年5月發佈GPT-4o後，未完成新一代前沿模型的大規模預訓練，因擴展參數和數據時遭遇收斂困難或性能倒退而中止。GPT-5系列實爲GPT-4o優化版，缺乏架構突破。相比之下，谷歌TPUv7已在Gemini3等模型上成功驗證大規模預訓練，算力集羣表現更優。

Dec 1, 2025

228.6k

OpenAI 宣佈將停止 GPT-4o 模型 API 訪問，開發者需儘快遷移

OpenAI宣佈將於2026年2月16日停止GPT-4o模型API訪問，開發者需在三個月內完成項目調整。該模型仍作爲ChatGPT個人及付費用戶選項，但已被視爲遺留系統。

Nov 24, 2025

343.8k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

相關推薦

OpenAI 宣佈停用 GPT-4o 等多款模型，用戶轉向新一代技術

告別 GPT-4o：OpenAI 宣佈停用多款經典大模型

​印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

預訓練“卡殼”：SemiAnalysis 爆料 OpenAI 連續兩年半未跑通新前沿大模型

​OpenAI 宣佈將停止 GPT-4o 模型 API 訪問，開發者需儘快遷移

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

OpenAI 宣佈將停止 GPT-4o 模型 API 訪問，開發者需儘快遷移