AI巨頭 Anthropic 今日正式推出了其引以爲傲的第五代 Claude 系列兩款全新模型:面向通用市場的 Claude Fable5,以及專注於特定專業領域的 Claude Mythos5(現已結束預覽階段)。兩款模型均基於同一基礎模型構建,但在安全配置和應用場景上各有側重。

編程與通用知識:Fable5的碾壓級表現

作爲通用模型的 Claude Fable5在幾乎所有主流測試基準中都斬獲了最高分,在長時間、複雜的任務處理中優勢尤爲顯著:

  • 軟件工程突破: 在評估無助狀態下解決真實 GitHub 任務的 SWE-Bench Pro 測試中,Fable5豪取 80.3% 的高分,遠超 Claude Opus4.8(69.2%)和 GPT5.5(58.6%)。在更嚴苛的生產級編碼基準 FrontierCode 上,它更是以 29.3% 的得分將 GPT5.5(5.7%)遠遠甩在身後。

  • 驚人的實戰效率: 支付巨頭 Stripe 表示,Fable5將原本需要5個月的工程工作縮短至幾天;在一個擁有5000萬行 Ruby 代碼的代碼庫中,它僅用一天就完成了整個團隊原本需要兩個多月才能完成的遷移工作。

  • 知識工作與視覺飛躍: Fable5在金融分析(Hebbia 基準測試)和圖表解讀上大獲全勝,IMC 交易集團表示該模型幾乎全面通過了其交易分析評估。視覺方面,它能精準提取複雜的科學插圖數據,並僅憑遊戲截圖就獨立通關了《精靈寶可夢 火紅》,完全脫離了前代模型所需的輔助框架。

QQ20260610-085002.jpg

科學假設與網絡安全:Mythos5的自主化研究

與配備保守安全防護的 Fable5不同,Claude Mythos5 解除了網絡安全等領域的限制,專門面向特定合作伙伴及美國政府(通過 Project Glasswing 項目)開放:

  • 藥物設計速度暴增10倍: 在無需人工干預的盲測中,Mythos5能夠自行選擇結合位點、運行生物信息學工具並自我修復錯誤。在14個蛋白質靶點中,成功爲9個產生了有效的候選藥物。

  • 首個提出科學假設的LLM: 盲法對比顯示,約80% 的情況下科學家更傾向於 Mythos5提出的分子生物學假設(例如大腸桿菌蛋白的新機制已被獨立研究證實)。

  • 自主基因組學研究: Mythos5在無人工干預下連續工作超一週,編譯了138種動物、數百萬個細胞的單細胞數據,並訓練出自己的機器學習模型,其表現超越了《科學》(Science)雜誌最近發表的模型,且體積縮小了100倍。

  • 捍衛網絡安全: 在 ExploitBench 基準測試中,Mythos5的得分從預覽版的69% 飆升至 78%(Opus4.8僅爲40%),被譽爲“全球最強的網絡安全模型”。

雙刃劍:高昂的價格與極端的安全防護

伴隨強大性能而來的是成本的急劇攀升。Fable5和 Mythos5的定價爲 每百萬輸入代幣(MTok)10美元,每百萬輸出代幣50美元,價格幾乎是 Claude Opus4.8的兩倍。在 Claude.ai 的網頁訂閱計劃中,新模型將按照2倍使用量計費。

爲了控制 Mythos 級別模型可能帶來的網絡攻擊或生物武器風險,Anthropic 在 Fable5中內置了一套創新的分類器降級機制:

  • 只要檢測到涉及網絡安全、生物、化學或“提煉(模型能力提取)”的危險提示詞,系統會自動將請求路由到較弱的 Claude Opus4.8模型上(影響約不到5% 的會話),並在界面上通知用戶。

  • 針對旨在構建前沿大模型的提示詞(如預訓練流程、分佈式訓練設計),系統不會直接攔截,而是會隱蔽地通過提示修改、引導向量或 PEFT(參數高效微調)來“限制”其輸出效果。

  • 在外部超過1000小時的測試中,測試人員未能找到通用的越獄方法,Fable5攻擊任務的成功率爲零。爲此,Anthropic 還增加了30天的數據保留期以檢測新型攻擊。

推出時間表

目前,Claude Fable5已通過Claude API和企業按量付費計劃推出。在 Claude.ai 的訂閱計劃(Pro、Max、Team 等)中正在逐步部署:即日起至6月22日,訂閱用戶可免費體驗 Fable5;自6月23日起,使用該模型將需要消耗使用點數(Credits)。官方承諾,一旦未來算力容量充足,會重新將其納入常規訂閱套餐中。