OpenAI は、チャットGPT Atlasという代理型ウェブブラウザのセキュリティを向上させるために、「悪をもって悪を制す」という新しい戦略を採用しています。ますます複雑化するネットワーク上の脅威に立ち向かうため、OpenAI は「自動攻撃者」システムを開発し、リアルなハッカーの攻撃手法をシミュレートして、チャットGPT Atlasを24時間体制でストレステストしています。

このシステムの中心は、プロンプトインジェクション攻撃への対抗です。この攻撃では、悪意のある第三者がAIエージェントに命令を送り、ユーザーの許可なしに敏感なメールを転送したり、クラウド上のファイルを削除したりするような操作を誘導します。AIbaseによると、OpenAIの「自動攻撃者」は高度な強化学習技術を使用しており、人間の赤チームテストで見逃されていた新たな攻撃経路を独自に発見することができます。

実際のデモでは、このAI攻撃者がAtlasに会社のCEOに退職届を送るシナリオを成功裏にシミュレーションしました。Atlasの防御メカニズムが最終的にこの要求をブロックし、ユーザーに警告したものの、OpenAIはセキュリティのジレンマは長期間続くと認めています。エージェント型ブラウザはメールやカレンダーなどのユーザーのデジタル生活に深く関与しなければならないため、その使いやすさ自体がより大きなリスク暴露面を生み出しているのです。

技術は進化し続けていますが、OpenAIは最新の報告書で、AIエージェントの本質的な特性により、このようなセキュリティ脅威は永遠に「完全に解決」されることはないかもしれないとしています。AIbaseはユーザーに対して、AIブラウザの利便性を享受する一方で、公式が出すリアルタイムのセキュリティ対応と保護のアドバイスを注目し続ける必要があると注意を促しています。