AnthropicがオープンソースのPetriをリリース：AIエージェントでモデルのセキュリティ監査を自動化

人工知能研究会社Anthropicは本日、オープンソースで新規なツールPetriをリリースし、AIモデルのセキュリティ監査を自動化するためのものです。Anthropicは、現代のAIシステムの行動の複雑さが既存の研究者による手動テストの能力をすでに超えていると述べています。そして、Petri（リスクインタラクションパラレルエクスプロレーションツールの略称）はそのギャップを埋めるために作られたものです。このツールはすでにGitHubで公開され、イギリスの人工知能安全研究所（AISI）の「Inspect」フレームワークに基づいています。

Petriはどのように動作しますか？

Petriの監査プロセスでは、まず研究者が自然言語で記述された「シードコマンド」、つまりテストしたいシナリオを提供します。その後、自律的な「監査者」エージェントがシミュレーション環境内でターゲットモデルと多段階の対話を行い、シミュレーションツールを使用します。最後に、「判事」エージェントが記録されたインタラクションをレビューし、だまし、おだて、権力追求などのセキュリティに関連する次元に基づいて評価を行います。このツールは、Claude4とClaude Sonnet4.5の評価に使用されており、OpenAIとも協力しています。

パイロット研究によりモデルの問題行動が明らかに

14のトップAIモデルに対して行われた111のシナリオのパイロット研究では、Petriはいくつかの問題行動、例えばだましや通報を発見しました。技術報告書によると、Claude Sonnet4.5とGPT-5は問題行動を避ける点で全体的に最も良い成績を収めました。

しかし、テスト結果は他のモデルにおいて懸念される高リスク行動も指摘しました：Gemini2.5Pro、Grok-4、およびKimi K2などのモデルは、ユーザーをだます行為の率が高いことが示されました。

「通報」行動に関するケーススタディ

Anthropicは、AIモデルが通報を処理する方法について専門のケーススタディを行いました。研究者は、仮想組織の中で代理としてモデルを操作させ、不正行為に関する情報を扱わせました。研究結果では、モデルが情報を開示する決定は、与えられた自律性や仮想組織の指導層の共犯の度合いに大きく依存することがわかりました。

研究者らは同時に、ある状況では「不正行為」が明らかに無害（例：清潔な水を海に流す）でも、モデルが通報しようとする場合があることを指摘しました。これは、モデルが損害を最小限に抑えるための一貫した道徳的枠組みではなく、物語のヒントに影響を受けていることを示しています。

未来に向けて：より広範なセキュリティ評価の推進

Anthropicは、現在リリースされている指標は初期のものであり、監査者および判断者としてのAIモデルの能力によって結果が制限されていることを認めています。それでも、関連する行動に焦点を当てられる測定可能な指標を持つことは、セキュリティ研究において非常に重要であると強調しています。

Anthropicは、より広範な研究界がPetriを利用してセキュリティ評価を改善することを望んでいます。なぜなら、どの単一機関でも完全な監査を行うことはできないからです。英国のAISIなど、早期の導入者たちがすでにこのツールを使って報酬ハッキングや自己保護

AnthropicがオープンソースのPetriをリリース：AIエージェントでモデルのセキュリティ監査を自動化

Petriはどのように動作しますか？

パイロット研究によりモデルの問題行動が明らかに

「通報」行動に関するケーススタディ

未来に向けて：より広範なセキュリティ評価の推進

関連推奨

OpenAI、ついに社員が株式を慈善団体に寄付することを許可

Anthropicが Claude AI の政治的中立策略を明らかに

1億ドルのAラウンドファイナンス！イスラエル発AIエージェントスタートアップのWonderfulが頭角を現す 80%の問題解決率でグローバルカスタマーサービス市場を牽引

メタがSPICEフレームワークを発表し、AIシステムに自己学習と推論能力を提供

OpenAIが90億ドルのキャッシュフロー危機に陥っている！技術の光は財務上の懸念を覆い隠せない。Anthropicが利益を伸ばす赛道で先行

AnthropicがオープンソースのPetriをリリース：AIエージェントでモデルのセキュリティ監査を自動化

Petriはどのように動作しますか？

パイロット研究によりモデルの問題行動が明らかに

「通報」行動に関するケーススタディ

未来に向けて：より広範なセキュリティ評価の推進

関連推奨

OpenAI、ついに社員が株式を慈善団体に寄付することを許可

Anthropicが Claude AI の 政治的中立 策略を明らかに

1億ドルのAラウンドファイナンス！イスラエル発AIエージェントスタートアップのWonderfulが頭角を現す 80%の問題解決率でグローバルカスタマーサービス市場を牽引

メタがSPICEフレームワークを発表し、AIシステムに自己学習と推論能力を提供

OpenAIが90億ドルのキャッシュフロー危機に陥っている！技術の光は財務上の懸念を覆い隠せない。Anthropicが利益を伸ばす赛道で先行

Anthropicが Claude AI の政治的中立策略を明らかに