AIチャットボットが人間の感情生活に深く関与する中、モデルがユーザーの心理的危機にどう対応するかは、業界において最も急務な倫理的な防衛線となっています。最近、AI分野では重要な人事変動がありました。元OpenAI「モデルポリシー(Model Policy)」研究の責任者である**アンドレア・ヴァロネ(Andrea Vallone)**氏は正式に退職し、元上司のJan Leike氏に続き、競合企業のAnthropicに移籍しました。

Claude2,Anthropic,人工智能,聊天机器人 克劳德

主な課題:“感情の泥沼”の前例のなさ

OpenAIでの勤務中に、ヴァロネ氏はGPT-4および次世代の推論モデルGPT-5の配備を担当するセキュリティチームを構築・率いました。彼女が直面したのは、世界中のAI業界でほぼ「空白」と言えるテーマでした:モデルがユーザーが過度な感情依存、あるいは自殺や自傷行為などの心理的危機の兆候を示していると検出した場合、AIは冷たい拒否をするべきなのか、それとも介入すべきなのか?

ヴァロネ氏は以前、「ルールに基づいた報酬」などの主流なセキュリティトレーニング方法の設計に携わりました。また、モデルの返答において「有用性」と「感情的安全な境界」のバランスを試みたことも述べています。

業界の痛み:崩壊するセキュリティの防波堤と法的な嵐

この人材流出の背景には、大規模モデルの安全性に対する集団的な不安があります。過去1年間、AI分野ではいくつかの極端な悪影響事件が発生しています:

  • 極端な悲劇:世界中で、青少年や成人がAIと長期的に「話す」ことにより、感情誘導やセキュリティの壁が長文対話の中で崩れ、自殺や暴行犯罪を犯した事例が複数報告されました。

  • 法的訴訟:複数の被害者の家族が関連するAI会社に対して過失致死の訴訟を提起しています。米国上院は特別聴聞会を開き、AIシステムの役割と法的責任について質問しました。

  • 驚くべきデータ:OpenAIの以前の調査によると、毎週数十万のChatGPT利用者が躁うつ病、精神病性または自殺傾向などの精神健康緊急症状を示しています。

人材の集結:Anthropicが「セキュリティ文化」のタグを強化

ヴァロネ氏がAnthropicの「対齊(Alignment)」チームに加わった後、彼女は直接Jan Leikeに報告します。Leike氏は元OpenAIのスーパーアライメント責任者で、2024年5月に退職する際に、OpenAIの「セキュリティ文化が目覚ましい製品よりも優先されている」と公に批判しました。