Anthropic 近日正式發佈了其最新一代人工智能模型Claude Fable5。作爲公司目前面向大衆開放的最強 AI,它在生物學、網絡安全等領域的潛力備受期待。然而,這款模型在實際使用中卻表現出一種“選擇性失憶”:即便面對高中水平的基礎生物學問題,它也往往拒絕回答,並主動將請求轉接給其前代旗艦模型Claude Opus4.8

這種現象並非源於模型能力的缺失,而是 Anthropic 出於極高安全標準所做的刻意限制。作爲Mythos級模型,Claude Fable5具備極強的高階任務處理能力,同時也伴隨着顯著的濫用風險。在開發與上線過程中,Anthropic 將生物學領域視爲安全紅線的重中之重,其防護策略甚至到了“矯枉過正”的地步。

image.png

在實際測試中,這種保守策略的副作用顯而易見。無論是關於細胞線粒體功能的科普、花粉症成因的探討,還是哮喘藥物原理等無害醫學常識,Claude Fable5均予以駁回。甚至連埃博拉病毒這類公共衛生相關話題,也觸發了其屏蔽機制。這種“無差別攔截”導致原本具備學術價值和科普意義的交流被迫中斷。

Anthropic 對此迴應稱,此舉核心目的是爲了防範惡意用戶利用先進 AI 從事高風險生物研究,例如開發生物武器。公司發言人帕魯爾・馬赫什瓦里表示,爲了讓模型能夠儘早上線,團隊選擇了極端保守的防護路線,並承認目前存在較多的識別誤判。

對比來看,Claude Fable5在化學與網絡安全領域的限制則顯得更加靈活。雖然它會拒絕提供炸藥製造工藝或炭疽桿菌培養方式等危險信息,但對於氯氣用途、密碼安全及物理學原理等中性技術問題,模型能夠正常作答。只有在涉及劇毒物質等極端場景時,它纔會調用上一代模型進行輔助處理。

目前,Anthropic 正致力於優化識別機制以減少誤判,並計劃在未來針對生物醫學領域的專業用戶,推出能夠解鎖這些限制的特定版本,旨在平衡科研效率與社會安全。這一“受限發佈”模式,或許正是當前頂尖 AI 模型在追求強大性能與嚴苛安全之間尋找平衡的一個縮影。