卡內基梅隆大學與斯坦福大學的一項最新聯合研究指出,當前人工智能智能體(AI Agent)的發展正陷入嚴重的“路徑依賴”。研究顯示,現有的 AI 測評基準高度集中於編程任務,卻忽視了佔美國勞動力市場 92% 的非編程領域。

研究人員系統分析了 43 個主流 AI 基準中的 7.2 萬個任務,並將其與美國政府 O*NET 職業數據庫中的 1016 種真實職業進行對比。

調查發現的失衡現狀:

  • 數字化行業的“基準盲區”:儘管管理類工作的數字化程度高達 88%,但在現有 AI 基準測試中僅佔 1.4%;法律工作數字化程度爲 70%,其在基準測試中的佔比僅爲 0.3%。

  • 技能覆蓋嚴重脫節:當前的 AI 測評主要考量“獲取信息”和“計算機操作”這兩類技能,它們僅覆蓋了不到 5% 的美國就業崗位。而現實工作中至關重要的“人際互動”分類,在現有的 AI 測試中幾乎無人問津。

  • 複雜度增加導致“能力跳水”:研究發現,AI 智能體的自主性在面對複雜任務時表現極差。即便是在最擅長的軟件開發領域,一旦任務步驟增多、邏輯變複雜,AI 的成功率就會出現斷崖式下跌。

研究者呼籲,未來的 AI 基準測試應向管理、法律、建築及工程等高價值、高數字化領域傾斜。同時,測評不應只關注最終結果,更應關注 AI 在執行過程中的中間步驟,以解決目標模糊和驗證週期長等現實痛點。

這一結論也得到了市場數據的印證。Anthropic 近期分析顯示,其 API 調用中近 50% 仍集中在軟件開發。專家警告稱,如果 AI 開發繼續盲目追求易於自動評分的編程任務,可能會錯失 AI 在更廣泛經濟領域發揮生產力價值的最佳時機。