研究預警：AI 智能體測試過於“偏科”編程，忽視了 92% 的真實勞動力市場

卡內基梅隆大學與斯坦福大學的一項最新聯合研究指出，當前人工智能智能體（AI Agent）的發展正陷入嚴重的“路徑依賴”。研究顯示，現有的 AI 測評基準高度集中於編程任務，卻忽視了佔美國勞動力市場 92% 的非編程領域。

研究人員系統分析了 43 個主流 AI 基準中的 7.2 萬個任務，並將其與美國政府 O*NET 職業數據庫中的 1016 種真實職業進行對比。

調查發現的失衡現狀：

數字化行業的“基準盲區”：儘管管理類工作的數字化程度高達 88%，但在現有 AI 基準測試中僅佔 1.4%；法律工作數字化程度爲 70%，其在基準測試中的佔比僅爲 0.3%。
技能覆蓋嚴重脫節：當前的 AI 測評主要考量“獲取信息”和“計算機操作”這兩類技能，它們僅覆蓋了不到 5% 的美國就業崗位。而現實工作中至關重要的“人際互動”分類，在現有的 AI 測試中幾乎無人問津。
複雜度增加導致“能力跳水”：研究發現，AI 智能體的自主性在面對複雜任務時表現極差。即便是在最擅長的軟件開發領域，一旦任務步驟增多、邏輯變複雜，AI 的成功率就會出現斷崖式下跌。

研究者呼籲，未來的 AI 基準測試應向管理、法律、建築及工程等高價值、高數字化領域傾斜。同時，測評不應只關注最終結果，更應關注 AI 在執行過程中的中間步驟，以解決目標模糊和驗證週期長等現實痛點。

這一結論也得到了市場數據的印證。Anthropic 近期分析顯示，其 API 調用中近 50% 仍集中在軟件開發。專家警告稱，如果 AI 開發繼續盲目追求易於自動評分的編程任務，可能會錯失 AI 在更廣泛經濟領域發揮生產力價值的最佳時機。

智譜發佈本地化Agent工具AutoClaw:集成Pony-Alpha-2模型，支持一鍵部署

智譜發佈AutoClaw（澳龍），是國內首個支持一鍵安裝的本地化OpenClaw集成工具，旨在降低AI Agent使用門檻。它簡化了環境配置，支持macOS與Windows系統快速部署，推動智能體技術向普通用戶普及。該工具深度集成了專爲Agent優化的Pony-Alpha-2模型，提升了工具調用穩定性和長任務處理能力。

騰訊發佈全場景智能體WorkBuddy:兼容OpenClaw並支持多模型切換

騰訊於2026年3月推出全場景AI智能體WorkBuddy，旨在降低大模型應用門檻。該產品兼容開源項目“小龍蝦”技能，具備免部署、開箱即用特性，推動AI智能體從極客工具向普適化辦公工具演進。其技術核心在於簡化雲端配置，用戶下載後即可通過指令驅動，顯著提升辦公效率。

研究預警：AI 智能體測試過於“偏科”編程，忽視了 92% 的真實勞動力市場

相關推薦

騰訊SkillHub 社區正式上線:針對中國用戶優化並收錄超1.3萬個 AI 技能

智譜發佈本地化Agent工具AutoClaw:集成Pony-Alpha-2模型，支持一鍵部署

騰訊發佈全場景智能體WorkBuddy:兼容OpenClaw並支持多模型切換

火山引擎發佈 ArkClaw:雲端 SaaS 版 OpenClaw 正式上線，集成豆包大模型

小米 AI Agent“龍蝦”Xiaomi miclaw低調現身：承諾不使用用戶數據訓練

​研究預警：AI 智能體測試過於“偏科”編程，忽視了 92% 的真實勞動力市場

相關推薦

騰訊SkillHub 社區正式上線:針對中國用戶優化並收錄超1.3萬個 AI 技能

智譜發佈本地化Agent工具AutoClaw:集成Pony-Alpha-2模型，支持一鍵部署

騰訊發佈全場景智能體WorkBuddy:兼容OpenClaw並支持多模型切換

火山引擎發佈 ArkClaw:雲端 SaaS 版 OpenClaw 正式上線，集成豆包大模型

小米 AI Agent“龍蝦”Xiaomi miclaw低調現身：承諾不使用用戶數據訓練

研究預警：AI 智能體測試過於“偏科”編程，忽視了 92% 的真實勞動力市場