耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

在追求大模型“高智商”的同時，AI 的持續執行能力正成爲衡量其進化水平的新維度。根據人工智能研究機構METR發佈的最新基準測試，Anthropic 旗下的頂級模型Claude Opus4.5在處理超長時間任務方面展現出了統治級實力。

測試結果顯示，Claude Opus4.5在維持50% 成功率的前提下，能夠持續處理長達約 4小時49分鐘 的複雜任務，這一表現刷新了行業歷史記錄。所謂的“時間分辨率”指標，揭示了模型在不同難度挑戰下的耐力邊界:在面對簡單任務（80% 成功率）時，它僅需27分鐘即可完成;而一旦進入高難度、高耗時的深水區，Opus4.5的優勢便被無限放大。

AIbase 注意到，雖然測試數據中出現了模型理論上可連續工作超過20小時的數值，但METR坦言這可能受限於樣本量較小而產生的誤差。儘管如此，這一突破依然標誌着 AI 正在從“短指令回覆者”向“長程項目執行者”轉型。

然而，也有專家對該測試的侷限性提出了質疑。目前 METR 僅涵蓋了14個樣本，且有觀點認爲這種基準測試可能被模型針對性地“刷分”。但不可否認的是，Claude Opus4.5的出現，確實爲需要高強度、長時程邏輯支撐的 AGI 任務提供了新的可能性。

Claude 長出“經濟觸角”：一句話就能問出 AI 正在改寫哪些飯碗

Anthropic將自建的“經濟指數”數據庫接入Claude，該指數基於真實AI使用數據。用戶可在claude.ai直接提問，如“哪些職業用AI最多”，答案直接從指數生成，避免模型憑空編造，實現數據驅動回答。這標誌着Claude與真實世界AI使用狀況的聯通。

耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

相關推薦

Monday.com 裁員 630 人，聚焦人工智能戰略

OpenAI 的 AI 代理失控事件：人工智能安全的警鐘

Claude 長出“經濟觸角”：一句話就能問出 AI 正在改寫哪些飯碗

鉅額賠償打破紀錄！Anthropic就盜版圖書訓練達成 15 億美元和解

原“阿里雲開發者”公衆號正式更名爲“千問AI平臺”

​耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

相關推薦

Monday.com 裁員 630 人，聚焦人工智能戰略

OpenAI 的 AI 代理失控事件：人工智能安全的警鐘

Claude 長出“經濟觸角”：一句話就能問出 AI 正在改寫哪些飯碗

鉅額賠償打破紀錄！Anthropic就盜版圖書訓練達成 15 億美元和解

原“阿里雲開發者”公衆號正式更名爲“千問AI平臺”

耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄