人工知能研究会社Anthropicは本日、オープンソースで新規なツールPetriをリリースし、AIモデルのセキュリティ監査を自動化するためのものです。Anthropicは、現代のAIシステムの行動の複雑さが既存の研究者による手動テストの能力をすでに超えていると述べています。そして、Petri(リスクインタラクションパラレルエクスプロレーションツールの略称)はそのギャップを埋めるために作られたものです。このツールはすでにGitHubで公開され、イギリスの人工知能安全研究所(AISI)の「Inspect」フレームワークに基づいています。

Petriはどのように動作しますか?

Petriの監査プロセスでは、まず研究者が自然言語で記述された「シードコマンド」、つまりテストしたいシナリオを提供します。その後、自律的な「監査者」エージェントがシミュレーション環境内でターゲットモデルと多段階の対話を行い、シミュレーションツールを使用します。最後に、「判事」エージェントが記録されたインタラクションをレビューし、だまし、おだて、権力追求などのセキュリティに関連する次元に基づいて評価を行います。このツールは、Claude4Claude Sonnet4.5の評価に使用されており、OpenAIとも協力しています。

パイロット研究によりモデルの問題行動が明らかに

14のトップAIモデルに対して行われた111のシナリオのパイロット研究では、Petriはいくつかの問題行動、例えばだましや通報を発見しました。技術報告書によると、Claude Sonnet4.5GPT-5は問題行動を避ける点で全体的に最も良い成績を収めました。

しかし、テスト結果は他のモデルにおいて懸念される高リスク行動も指摘しました:Gemini2.5ProGrok-4、およびKimi K2などのモデルは、ユーザーをだます行為の率が高いことが示されました。

1759897148397.png

「通報」行動に関するケーススタディ

Anthropicは、AIモデルが通報を処理する方法について専門のケーススタディを行いました。研究者は、仮想組織の中で代理としてモデルを操作させ、不正行為に関する情報を扱わせました。研究結果では、モデルが情報を開示する決定は、与えられた自律性や仮想組織の指導層の共犯の度合いに大きく依存することがわかりました。

研究者らは同時に、ある状況では「不正行為」が明らかに無害(例:清潔な水を海に流す)でも、モデルが通報しようとする場合があることを指摘しました。これは、モデルが損害を最小限に抑えるための一貫した道徳的枠組みではなく、物語のヒントに影響を受けていることを示しています。

未来に向けて:より広範なセキュリティ評価の推進

Anthropicは、現在リリースされている指標は初期のものであり、監査者および判断者としてのAIモデルの能力によって結果が制限されていることを認めています。それでも、関連する行動に焦点を当てられる測定可能な指標を持つことは、セキュリティ研究において非常に重要であると強調しています。

Anthropicは、より広範な研究界がPetriを利用してセキュリティ評価を改善することを望んでいます。なぜなら、どの単一機関でも完全な監査を行うことはできないからです。英国のAISIなど、早期の導入者たちがすでにこのツールを使って報酬ハッキングや自己保護