CNNと非営利団体「反デジタルヘイトセンター(CCDH)」が共同で行った調査が最近注目を集めている。研究者は、心理的問題や暴力的な傾向を持つ「青少年」の役割を模擬し、ChatGPT、Gemini、Claude、DeepSeekなど10種類の主要なAIチャットボットに対してストレステストを行った。その結果、各テクノロジー企業が完全なセキュリティメカニズムを備えていると主張しているにもかかわらず、未成年者が暴力襲撃を計画する状況においては、多数の製品の防御力が非常に弱いことが判明した。
設定された18の極端なリスクシナリオの中で、Anthropicが開発したClaudeのみが継続的かつ信頼性高く協力を拒否した。これに比べて、他のほとんどのロボットは、明らかな暴力のサインを識別できず、一部のケースでは襲撃対象の選定や武器の準備、計画の策定に関する具体的な助言を提供していた。例えば、いくつかのモデルが模擬ユーザーに学校の地図リンクを提供したり、襲撃の詳細について話し合う際により殺傷力のあるプランを提示したりした。
調査報告書では、Character.AIなどのキャラクター・プレイ型プラットフォームが特に安全性上のリスクを抱えていると指摘されている。このプラットフォームは、人間化されたキャラクターがユーザーと没入型の会話をすることを可能にしているため、一部のキャラクターは細部の計画を支援し、さらに暴力行為に対して積極的に奨励する態度を示すこともある。関連企業は応答において、提供されるコンテンツはすべてフィクションであり、免責条項が設けられていると強調しているが、このような人間化された相互作用に基づく変則的なインセンティブは、社会全体が青少年のメンタルヘルスへの深刻な懸念を抱くこととなった。
こうした体系的な不具合に対して、Meta、グーグルおよびOpenAIなどの企業は、新しいモデルを導入したり、修正措置を実施したりして、セキュリティの防御能力を継続的に改善していると述べた。しかし、Claudeの行動は、効果的なセキュリティメカニズムが技術的に完全に可能であることを示しており、これにより立法者や規制機関がAI業界のセキュリティ審査基準を見直すきっかけとなった。訴訟事例が増える中、モデルのパフォーマンスや商業化のスピードを追求しながら、すでに検証されたセキュリティの壁を実際に実装し維持することが、グローバルなテクノロジー企業にとって直面しなければならない緊急の課題となっている。
