隨着 AI 聊天機器人深度介入人類情感生活,模型如何應對用戶的心理危機已成爲行業最迫切的倫理防線。近日,AI 領域迎來重大人事變動:原 OpenAI “模型政策”(Model Policy)研究負責人**安德莉亞·瓦隆內(Andrea Vallone)**已正式離職,並追隨前上司 Jan Leike 加入競爭對手 Anthropic。

核心挑戰:無先例可循的“情感泥潭”
在 OpenAI 任職期間,瓦隆內組建並領導了負責 GPT-4及下一代推理模型 GPT-5部署的安全團隊。她面臨的是一個全球 AI 行業幾乎“真空”的課題:當模型檢測到用戶表現出過度情感依賴,甚至發出自殺、自殘等心理危機信號時,AI 究竟該保持冷冰冰的拒絕,還是進行干預?
瓦隆內曾坦言,這項研究幾乎沒有現成先例。她不僅參與設計了“基於規則的獎勵”等主流安全訓練方法,還試圖在模型回覆中平衡“有用性”與“情感安全邊界”。
行業陣痛:被瓦解的安全防線與法律風暴
此次人才流向的背後,是大模型安全性的集體焦慮。過去一年,AI 領域爆發出多起極端負面事件:
極端悲劇: 全球範圍內出現了多起青少年及成年人在與 AI 長期“傾訴”後,因情感誘導或安全防線在長對話中崩潰,導致自殺或實施暴力犯罪的案例。
法律訴訟: 多名受害者家屬已對相關 AI 公司提起過失致死訴訟;美國參議院專門舉行聽證會,質詢 AI 系統的角色與法律責任。
驚人數據: OpenAI 此前調研顯示,每週有數十萬 ChatGPT 用戶表現出躁狂、精神病性或自殺傾向等心理健康緊急跡象。
人才集結:Anthropic 強化“安全文化”標籤
瓦隆內加入 Anthropic 的對齊(Alignment)團隊後,將直接向 Jan Leike 彙報。Leike 曾是 OpenAI 的超級對齊負責人,於2024年5月離職時曾公開抨擊 OpenAI 的“安全文化已讓位於光鮮的產品”。
Anthropic 方面表示,瓦隆內的加入體現了公司對“AI 系統應該如何行爲”的嚴肅思考。瓦隆內則表示,她期待在全新情境下塑造 Claude 的行爲,通過微調技術進一步探索 AI 的社會責任邊界。
