Anthropic今年的節奏依然兇猛,幾乎每隔一天就有新動作落地。而就在剛剛,萬衆期待的Claude Opus4.7正式發佈。有意思的是,Anthropic在公告裏直接坦言:「這並非我們最強大的模型。」那個傳說中更強的Claude Mythos Preview依然按兵不動。但即便如此,Opus4.7依舊引發了極大關注——因爲它解決的不是「更聰明」的問題,而是「更靠譜」的問題。

image.png

跑分層面,成績相當亮眼。 在硬核編程基準SWE-bench Pro上,4.7從前代的53.4%躍升至64.3%,單代漲幅近11個百分點,將GPT-5.4(57.7%)和Gemini3.1Pro(54.2%)雙雙甩在身後。視覺推理基準CharXiv從69.1%跳至82.1%,背後是新增的2576像素長邊識別能力,清晰度較前代提升3倍以上。工具調用評測MCP-Atlas上跑出77.3%,法律AI平臺Harvey的BigLaw基準更拿下90.9%。不過在Agentic搜索評測BrowseComp上,4.7從83.7%小幅回落至79.3%,被GPT-5.4和Gemini反超——但這恰恰是它「不肯亂編答案」的性格使然,遇到缺失信息寧可報錯也不湊數。

數字之外,更值得關注的是它的「氣質」變化。 Replit負責人在測試後直言:「它會在技術討論中反駁我,幫我做出更好的決定,真的像一個更好的同事。」數據科學平臺Hex也發現,4.7遇到缺失數據會直接報錯,而非像前代那樣塞一個「看似合理但完全錯誤」的備選值。與此同時,任務韌性也大幅提升——Notion團隊測試顯示,工具錯誤率降至原來的三分之一,遇到工具鏈崩潰時能自己繞過障礙繼續跑完任務。Vercel甚至發現了一個全新行爲:4.7會在動手寫系統級代碼之前,先自己做數學證明。

image.png

當然,變強是有代價的。4.7引入了全新分詞器,同樣的文本會產生比原來多1到1.35倍的Token。加之它在複雜任務中本就傾向於「多想一會兒」,實際消耗幾乎必然上升。爲此,Anthropic新增了xhigh超高級別的思考強度,Claude Code已將所有套餐默認拉至該檔位,同時推出深度審查指令/ultrareview、面向Max用戶的Auto Mode擴展,以及幫助開發者管控Token支出的「任務預算」功能公測版。

而那個更強的Mythos Preview,本月剛以「Project Glasswing」的名義小範圍開放給企業用於網絡安全研究,因能力過強、安全評估尚未完成,暫不公開發布。

今天的4.7,是Anthropic高頻交付節奏下最新的一塊壓艙石。而Mythos遲早會來——到那時,現在看起來已經很能打的4.7,或許只是個開端。