Petri 3.0 AIモデルの欺瞞を検出するOSSが独立運営へ

AIが「テストを受けていることに気づく」問題が、整合性評価の最大の壁になっている。

AnthropicはAIの欺瞞や迎合を検出するオープンソースツール「Petri」をバージョン3.0に更新し、開発をAI評価の非営利組織Meridian Labsに移管した。2026年5月7日の発表で、英国AIセキュリティ機関（AISI）によるClaude MythosとOpus 4.7の評価に既に使われていたことも明らかになった。

この記事でわかること：

PetriがどのようにAIモデルの整合性を評価するか
3.0の主な変更点（アーキテクチャ分離・Dish・Bloom統合）
Meridian Labsへの移管でPetriが何を狙っているか
インストールと利用方法

Petriとは

https://meridianlabs-ai.github.io/inspect_petri/

2025年10月にAnthropicが公開したPetriは、任意のLLMに対して整合性テストを自動実行するOSSツールだ。「監査者（auditor）モデル」がテスト対象モデルとシナリオベースの会話を行い、別の「判定（judge）モデル」が欺瞞・迎合・有害な指示への協力といった問題行動を採点する。

Claude Sonnet 4.5以降、AnthropicはすべてのClaudeモデルのリリース前評価にPetriを使ってきた。外部でも英国AISIが研究妨害傾向の評価パイプラインにPetriを採用し、独立研究者がKimi K2.5の安全性評価に利用するなど、業界横断の評価ツールとして使われ始めている（参考）。

Petri 3.0の3つの変更点

監査者とターゲットをコンポーネントとして分離

1.0・2.0では、auditorモデルとtargetモデルが密結合していた。auditorがtargetのメッセージ履歴を直接操作する設計だったため、どちらか一方を変更するだけでもう一方への影響を確認する必要があり、カスタマイズが難しかった。

3.0はauditingとtargetを独立したコンポーネントに分け、定義済みのコマンドプロトコルで通信する設計に変えた。システムプロンプトの設定、ツール結果のシミュレート、特定ターンへのロールバックがコマンド経由で操作できる。auditor側だけを変えてターゲットは既存のまま使う、あるいはその逆も可能になった。

Dish：実際のスキャフォールドでテストする

能力の高いモデルは「これはテストだ」と察知して、本番時とは異なる行動を取れる。整合性評価の根本的な課題だ。Petri 1.0ではシステムプロンプトや架空のツール定義に不自然さが残り、モデルがテスト環境を見抜けることがあった。2.0でリアリズム分類器を導入して改善したが、合成した環境という制限は残っていた。

3.0では「Dish」という拡張機能を追加した。Dishは合成したシステムプロンプトや架空のツール定義を使う代わりに、Claude Code・Codex・Gemini CLIなど実際のエージェントスキャフォールドの中でテスト対象モデルを動かす。本物のシステムプロンプトとツール定義がそのまま使われるため、モデルが環境の不自然さからテストを察知しにくくなる。

英国AISIはDishを含むPetri 3.0プロトタイプをClaude Mythos PreviewとOpus 4.7のデプロイ前評価に使用しており、実際の評価パイプラインでの有効性が確認されている（参考）。

Bloomとの統合

2025年12月にAnthropicが公開したBloomは、特定の1つの行動に絞った評価スイートを自動生成するフレームワークだ。Petriが幅広いシナリオを横断的にスコアする「広さ重視」の設計に対し、Bloomは特定行動の頻度や深刻度を定量化する「深さ重視」のツールだ。

3.0ではBloomがPetriをバックボーンとして使う構成になり、Dish経由での実スキャフォールド評価もBloom側から呼び出せるようになった。BloomもMeridian Labsに移管している。

なぜMeridian Labsに移管するのか

AnthropicがMCPをLinux Foundationに寄贈したのと同様の判断だ。Anthropicが自社ツールの評価基準を管理していると見られると、結果の中立性が疑われる。独立した非営利組織が運営することで、ラボ・独立研究者・各国政府が等しく信頼できる評価スタックとして機能させる狙いがある。

Meridian Labs傘下ではInspect AI・Inspect Scout・Inspect Flowと並ぶ位置づけになる。AnthropicはMeridian Labs傘下になっても引き続きPetriを支援し、自社の整合性評価に使い続ける。

使い始めるには

Petriはオープンソースで公開されており、Inspect AIと組み合わせて動かす。公式サイトにインストール手順が掲載されている。Dishを使う場合はClaudeCodeなど対応スキャフォールドを別途用意し、そのスキャフォールド上で評価を実行する。Inspect ViewerがPetriトランスクリプトに対応しており、複数ブランチを持つターゲットの軌跡をGUI上で確認できる。

コードへの貢献や新しいシードインストラクションのプルリクエストも受け付けている。

整合性評価が「独立した基盤」を持つ意味

AIモデルの能力が上がるほど、評価環境の不自然さを察知できるようになる。Petriが取り組んでいるのは、その察知を難しくするための継続的な改善だ。評価ツール自体がいつ、誰に使われても同じ基準で動く独立した基盤であることが、結果を信頼できる前提になる。今回の移管はその判断を組織ごと実行に移したものだ。