OpenAI 心理健康安全負責人跳槽 Anthropic，揭開大模型“情感防線”之爭

隨着 AI 聊天機器人深度介入人類情感生活，模型如何應對用戶的心理危機已成爲行業最迫切的倫理防線。近日，AI 領域迎來重大人事變動:原 OpenAI “模型政策”（Model Policy）研究負責人**安德莉亞·瓦隆內(Andrea Vallone)**已正式離職，並追隨前上司 Jan Leike 加入競爭對手 Anthropic。

Claude2，Anthropic，人工智能，聊天機器人
克勞德

核心挑戰:無先例可循的“情感泥潭”

在 OpenAI 任職期間，瓦隆內組建並領導了負責 GPT-4及下一代推理模型 GPT-5部署的安全團隊。她面臨的是一個全球 AI 行業幾乎“真空”的課題:當模型檢測到用戶表現出過度情感依賴，甚至發出自殺、自殘等心理危機信號時，AI 究竟該保持冷冰冰的拒絕，還是進行干預?

瓦隆內曾坦言，這項研究幾乎沒有現成先例。她不僅參與設計了“基於規則的獎勵”等主流安全訓練方法，還試圖在模型回覆中平衡“有用性”與“情感安全邊界”。

行業陣痛:被瓦解的安全防線與法律風暴

此次人才流向的背後，是大模型安全性的集體焦慮。過去一年，AI 領域爆發出多起極端負面事件:

極端悲劇: 全球範圍內出現了多起青少年及成年人在與 AI 長期“傾訴”後，因情感誘導或安全防線在長對話中崩潰，導致自殺或實施暴力犯罪的案例。
法律訴訟: 多名受害者家屬已對相關 AI 公司提起過失致死訴訟;美國參議院專門舉行聽證會，質詢 AI 系統的角色與法律責任。
驚人數據: OpenAI 此前調研顯示，每週有數十萬 ChatGPT 用戶表現出躁狂、精神病性或自殺傾向等心理健康緊急跡象。

人才集結:Anthropic 強化“安全文化”標籤

瓦隆內加入 Anthropic 的對齊（Alignment）團隊後，將直接向 Jan Leike 彙報。Leike 曾是 OpenAI 的超級對齊負責人，於2024年5月離職時曾公開抨擊 OpenAI 的“安全文化已讓位於光鮮的產品”。

Anthropic 方面表示，瓦隆內的加入體現了公司對“AI 系統應該如何行爲”的嚴肅思考。瓦隆內則表示，她期待在全新情境下塑造 Claude 的行爲，通過微調技術進一步探索 AI 的社會責任邊界。

OpenAI 心理健康安全負責人跳槽 Anthropic，揭開大模型“情感防線”之爭

核心挑戰:無先例可循的“情感泥潭”

行業陣痛:被瓦解的安全防線與法律風暴

人才集結:Anthropic 強化“安全文化”標籤

相關推薦

Anthropic 挺進印度:前微軟高管坐鎮，正面硬剛 OpenAI

OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題

拒絕被 AI“白嫖”!維基百科25週年簽下微軟、Meta 付費大單

OpenAI心理健康安全負責人跳槽Anthropic，AI對話系統安全引關注

AI 助力開發新工具，Claude Cowork 在 10 天內完成首個版本

OpenAI 心理健康安全負責人跳槽 Anthropic，揭開大模型“情感防線”之爭

核心挑戰:無先例可循的“情感泥潭”

行業陣痛:被瓦解的安全防線與法律風暴

人才集結:Anthropic 強化“安全文化”標籤

相關推薦

​Anthropic 挺進印度:前微軟高管坐鎮，正面硬剛 OpenAI

​OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題

拒絕被 AI“白嫖”!維基百科25週年簽下微軟、Meta 付費大單

OpenAI心理健康安全負責人跳槽Anthropic，AI對話系統安全引關注

AI 助力開發新工具，Claude Cowork 在 10 天內完成首個版本

Anthropic 挺進印度:前微軟高管坐鎮，正面硬剛 OpenAI

OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題