Claude Opus 4. 7 正式發佈：比聰明更重要的，是靠譜

Anthropic今年的節奏依然兇猛，幾乎每隔一天就有新動作落地。而就在剛剛，萬衆期待的Claude Opus4.7正式發佈。有意思的是，Anthropic在公告裏直接坦言:「這並非我們最強大的模型。」那個傳說中更強的Claude Mythos Preview依然按兵不動。但即便如此，Opus4.7依舊引發了極大關注——因爲它解決的不是「更聰明」的問題，而是「更靠譜」的問題。

跑分層面，成績相當亮眼。 在硬核編程基準SWE-bench Pro上，4.7從前代的53.4%躍升至64.3%，單代漲幅近11個百分點，將GPT-5.4（57.7%）和Gemini3.1Pro(54.2%)雙雙甩在身後。視覺推理基準CharXiv從69.1%跳至82.1%，背後是新增的2576像素長邊識別能力，清晰度較前代提升3倍以上。工具調用評測MCP-Atlas上跑出77.3%，法律AI平臺Harvey的BigLaw基準更拿下90.9%。不過在Agentic搜索評測BrowseComp上，4.7從83.7%小幅回落至79.3%，被GPT-5.4和Gemini反超——但這恰恰是它「不肯亂編答案」的性格使然，遇到缺失信息寧可報錯也不湊數。

數字之外，更值得關注的是它的「氣質」變化。 Replit負責人在測試後直言:「它會在技術討論中反駁我，幫我做出更好的決定，真的像一個更好的同事。」數據科學平臺Hex也發現，4.7遇到缺失數據會直接報錯，而非像前代那樣塞一個「看似合理但完全錯誤」的備選值。與此同時，任務韌性也大幅提升——Notion團隊測試顯示，工具錯誤率降至原來的三分之一，遇到工具鏈崩潰時能自己繞過障礙繼續跑完任務。Vercel甚至發現了一個全新行爲:4.7會在動手寫系統級代碼之前，先自己做數學證明。

當然，變強是有代價的。4.7引入了全新分詞器，同樣的文本會產生比原來多1到1.35倍的Token。加之它在複雜任務中本就傾向於「多想一會兒」，實際消耗幾乎必然上升。爲此，Anthropic新增了xhigh超高級別的思考強度，Claude Code已將所有套餐默認拉至該檔位，同時推出深度審查指令/ultrareview、面向Max用戶的Auto Mode擴展，以及幫助開發者管控Token支出的「任務預算」功能公測版。

而那個更強的Mythos Preview，本月剛以「Project Glasswing」的名義小範圍開放給企業用於網絡安全研究，因能力過強、安全評估尚未完成，暫不公開發布。

今天的4.7，是Anthropic高頻交付節奏下最新的一塊壓艙石。而Mythos遲早會來——到那時，現在看起來已經很能打的4.7，或許只是個開端。

Claude Opus 4. 7 正式發佈：比聰明更重要的，是靠譜

相關推薦

MCP協議迎來問世以來最大改版：徹底"無狀態"，全面適配Serverless

1100 多名 AI 員工聯名呼籲美國政府踩剎車，奧爾特曼罕見表態支持

1100 名AI員工聯名上書華盛頓：是時候給AI開發踩剎車了

50 萬Mac用戶裸奔，Claude智能體爆沙箱逃逸漏洞可讀寫任意文件

Anthropic CEO 阿莫代伊撰文劃清立場：不主張禁開源，但要卡死算力、蒸餾與發佈前測試