最近、Perplexity は、AIブラウザエージェントがネットワークコンテンツの操作から保護されるための新しいセキュリティシステム「BrowseSafe」をリリースしました。このシステムは、Promptインジェクション攻撃の検出率が91%に達し、現在市場にある他のソリューションよりも優れていると主張しています。例えば、PromptGuard-2は35%の攻撃しか検出できませんが、GPT-5などの大規模な先端モデルでも検出率は85%にとどまります。さらに、BrowseSafeは高速に動作し、リアルタイムでのモニタリングが可能です。
AIブラウザエージェントの広範な使用により、新たなセキュリティリスクも生じています。今年初めに、PerplexityはCometをリリースしました。これは、AIエージェントを統合したウェブブラウザで、ユーザーのようにサイトを閲覧し、メールや銀行、企業アプリケーションなどの認証セッションを操作できます。このような高権限アクセスは、悪意のある攻撃者がウェブページ内に危険なコマンドを隠す機会を与え、エージェントに不適切な行動(例:機密情報を外部アドレスに送信)を引き起こす可能性があります。
セキュリティ問題の深層分析を通じて、Perplexityは従来の評価基準であるAgentDojoがこれらの複雑なネットワーク攻撃に対応していないことを発見しました。これらの基準は通常、単純なプロンプトに依存しており、現実世界における複雑なネットワークコンテンツをカバーできず、攻撃者が簡単に悪意のあるコードを隠すことができます。

そのため、PerplexityはBrowseSafe Benchを作成し、ネットワーク攻撃の範囲を3つの具体的な次元で定義しました:攻撃タイプ、インジェクション戦略、言語スタイル。このベンチマークは特に「検出が難しいコンテンツ」に焦点を当てており、見た目は無害だが、攻撃と誤解される可能性のある複雑な内容です。専門家混合アーキテクチャを使用することで、BrowseSafeはユーザー体験を損なうことなく並列でセキュリティスキャンを行うことができます。
しかし、評価の中でいくつかの問題も明らかになりました。たとえば、多言語攻撃の検出率は76%に低下しました。また、HTMLコメントに隠されているコンテンツは、ページ下部などの明示的な領域に隠されているコンテンツよりも検出されやすかったです。Perplexityの3段階防御戦略は、高速な分類器と推論に基づく先端の大規模言語モデルによって構成されています。
BrowseSafeは多くの場合において優れた性能を発揮していますが、約10%の攻撃がこのシステムを回避することができ、ネットワーク環境の複雑さと攻撃手法の進化を示しています。そのため、Perplexityはそのベンチマーク、モデル、および研究論文を公開し、AIエージェントがネットワーク上で安全に相互作用できるようにすることを目指しています。
ポイント:
🌐 BrowseSafeの検出率は91%で、現在の大多数のソリューションより高い。
🔒 AIブラウザエージェントの高権限アクセスは、攻撃のリスクを増加させる。
📊 Perplexityが導入したセキュリティ戦略は、複雑なネットワーク攻撃に対応するために設計されている。
