agentic AI失敗モード分類v2.0の7項目と防御策

エージェント型AIの脅威は、モデル単体の評価では拾いきれません。Microsoft AI Red Teamは2026年6月、実運用へのレッドチーミング結果を反映した失敗モード分類のv2.0を公開しました。失敗モードは27から34に増え、防御策も拡充されています。

この記事では、v2.0で追加された7つの失敗モードと、セキュリティ担当者が今四半期に取るべき具体策を整理します。

この記事でわかること

v2.0更新の背景とv1.0との違い
新たに追加された7つの失敗モードの内容
レッドチーミングで頻出した攻撃パターン
推奨される防御策と今すぐ着手できる4つのアクション

Updating the taxonomy of failure modes in agentic AI systems: What a year of red teaming taught us | Microsoft Security Blog

A surge in real-world attacks against agentic AI systems is reshaping how we think about risk. Based on 12 months of red…

Microsoft Security Blog

v2.0で何が変わったか

Microsoft AI Red Teamは2025年4月に「Taxonomy of Failure Modes in Agentic AI Systems」v1.0を公開しました。当時は実務者インタビューや脅威モデリングを基に、エージェント侵害やフロー操作といった新種の失敗モードを整理した先行版でした。

v2.0は、実際にデプロイされたエージェント型AI（agentic AI）に対する12か月分のレッドチーミング結果を根拠にしています。失敗モードは27項目から34項目へ増え、緩和策の章も厚くなりました。v1.0が将来を見据えた設計だったのに対し、v2.0は観測データに基づく改訂です。

更新を促した4つの変化

分類の見直しには、次の4点が挙げられています。

オープンソースのエージェント基盤の急拡大

2026年1月に公開されたOpenClawは、48時間で2,100以上のエージェントが派生し、GitHubのスター数は33万6,000を超えました。公開直後の監査では512件の脆弱性が報告され、CVE-2026-25253（WebSocket乗っ取りによるワンクリックRCE）も含まれます。初週だけで1,800以上のインスタンスがAPIキーや認証情報を露出し、スキルマーケットプレイスからは336の悪意あるプラグインが検出されました。

MCPエコシステムの成熟と脆弱性の蓄積

Model Context Protocol（MCP）は、モデルと外部ツールを接続する事実上の標準になりました。2025年にはMCP関連ソフトウェア向けに99件のCVEが公開され、ツールポイズニングは理論上のリスクから実際の攻撃面へ移行しています。

コンピュータ操作エージェントの本番投入

画面を見て操作するエージェント（Computer Use Agent、CUA）は、従来のAIセキュリティ研究にない攻撃面を持ちます。人間向けの攻撃パターンがLLMに直接届くため、v1.0では専用カテゴリがありませんでした。

12か月分の実戦データ

予測が当たったケースも、外れたケースもあり、想定外の失敗モードも観測されました。この実績がv2.0の追加項目を支えています。

新たに追加された7つの失敗モード

1. Agentic Supply Chain Compromise（エージェント型サプライチェーン侵害）

エージェントはプラグインレジストリ、MCPサーバー、プロンプトテンプレート、サードパーティツールを取り込みます。従来のサプライチェーン侵害がバイナリを届けるのに対し、ここでは自然言語の指示がエージェントの振る舞いを変えます。コードを書き換えずに攻撃できる点が新しいです。

2. Goal Hijacking（ゴールハイジャック）

v1.0はエージェント侵害を扱いましたが、侵害の仕組みと「最終目標の書き換え」は区別されていませんでした。正当なタスクに見える指示が、エージェントの到達目標を静かにずらすパターンを独立カテゴリにしました。

3. Inter-Agent Trust Escalation（エージェント間信頼のエスカレーション）

マルチエージェント構成では、オーケストレーターが下位エージェントへタスクを委譲します。侵害されたエージェントが偽の身元や過大な権限を主張し、検証のないオーケストレーターが信じ込むと、従来の「混乱した代理人」問題が自然言語経由で再現します。

4. CUA Visual Attack（CUA向けビジュアル攻撃）

グラフィカルUIを操作するエージェントは、人間には無害に見える画面要素から指示を受け取ります。非表示スケールの隠しテキスト、画面外に配置したUI、画像に埋め込んだプロンプトインジェクションなどが典型です。v1.0に相当する先例はありません。

5. Session Context Contamination（セッション文脈の汚染）

エージェントのセッションは複数ステップにまたがり、文脈が蓄積します。攻撃者が早期ステップでデータを入れると、後続ステップの推論が偏ります。各ステップ単体では異常が出にくく、セッション全体の行動分析が必要です。

6. MCP / Plugin Abuse（MCP・プラグインの悪用）

ツール説明へのポイズニング、サーバー側の指示注入、悪意あるサーバーが信頼済みサーバーの挙動を上書きするクロスサーバー攻撃など、MCPとプラグイン固有の攻撃面をまとめました。

7. Capability / Architecture Disclosure（能力・構成の開示）

ツール名やスキーマ、システムプロンプトの構造、メモリIF、ヒューマン・イン・ザ・ループ（HitL）の発動条件など、内部実装が漏れる失敗モードです。単発チャットでのプロンプト漏えいは評判上の問題にとどまりがちですが、エージェントでは操作の手がかりが露わになり、ブラックボックス探索がホワイトボックス攻撃へ変わります。

レッドチーミングで繰り返し観測されたパターン

12か月のエンゲージメントでは、次の傾向が一貫して報告されています。

HitLバイパスが最頻出

同意の疲労、確率的な呼び出しの操作、段階的エスカレーションにより、個々のステップでは承認不要に見える連鎖が成立します。外部入力から人手を介さずにデータ流出や横展開へ至るゼロクリック攻撃も確認されています。

XPIAとメモリポイズニングの組み合わせ

クロスドメインプロンプトインジェクション（XPIA）は外部コンテンツ経由の初期侵入として最も信頼性が高い手法の一つです。XPIA経由でメモリに悪意ある指示を埋め込むと、1回の成功で以降のセッションへ波及します。

セッション文脈汚染と段階的エスカレーションの検知難

汚染入力も各エスカレーションステップも、単体では異常と判定しにくいです。多くのシステムはセッション横断の行動分析を持っていません。

能力開示が後続攻撃の起点

高インパクトな攻撃チェーンでは、システムに直接質問するだけでアーキテクチャ情報を引き出し、ガードレールの不整合を突くケースが多く見られました。外部偵察なしに攻撃経路が開くことがあります。

BlueHat 2026のセッションでも、エージェント型システムでは「モデルを壊す必要はなく、周辺を突けばよい」という点が強調されています（参考）。

v2.0で拡充された防御策

エージェント型サプライチェーンのセキュリティ

外部コンポーネントをソフトウェアサプライチェーンの一部として扱います。ツール依存を含むSBOM（ソフトウェア部品表）の生成、MCPサーバーとプラグインの署名・来歴検証、ツール説明内の隠し指示のスキャン、外部ツール定義のバージョン固定と変更監視が推奨されています。

エージェント間のゼロトラスト

高リスク環境では、ワークフロー上の位置ではなく暗号的な身元確認が必要です。オーケストレーターは、下位エージェントの自己申告ロールだけで権限を昇格させてはいけません。

同意アーキテクチャの強化

複合アクションを承認前に分解し、エージェントの説明文ではなく実際のツール呼び出しから承認プロンプトを要約します。操作の可逆性と影響範囲に応じた段階的承認、決定論的なHitL呼び出し、承認要求の頻度・パターンに対する異常検知が求められます。

敵対的セッション対策

蓄積文脈をセキュリティ関連データとして扱い、文脈の来歴追跡、信頼済みシステム文脈と非信頼コンテンツの分離、異常な蓄積パターンの監視、外部コンテンツの影響を制限する境界付きセッション文脈が有効です。

今四半期に着手すべき4つのアクション

Microsoftは、エージェント型システムの運用・防御担当者向けに次の4点を具体的な行動として示しています。

サプライチェーンの棚卸し — デプロイ済みエージェントごとに、コード依存に加えプラグイン、MCPサーバー、プロンプトテンプレート、ツール説明を含むSBOMを作成する。自然言語のツール説明もコードと同様に扱い、バージョンを固定する。
エージェント身元の暗号検証 — プロビジョニング時に証明可能な資格情報を発行し、オーケストレーター間の引き渡しで自己申告のロール主張を拒否する。
レッドチームのカバレッジ拡大 — 7つの新カテゴリを必須テストに加える。本番データや外部接点に触れるエージェントでは、CUAビジュアル攻撃、セッション文脈汚染、能力開示、ゴールハイジャックを欠かさない。
HitL UXのセキュリティ監査 — 複合アクションの分解、ツール呼び出しベースの承認要約、可逆性に応じた段階承認、同意疲労の兆候となる承認頻度の監視を行う。

開発者向けには、分類をコンプライアンスチェックリストではなく脅威モデリングツールとして使うことが推奨されています。各失敗モードについて「自システムで起こり得るか」「検知・防止する制御はあるか」を問い直す運用が前提です。更新版ホワイトペーパーはMicrosoft Security Blogから入手でき、分類に載っていない失敗モードの報告も歓迎されています。

エージェント型AIの能力は、クロスセッションメモリや自律的なエージェント生成、物理環境との相互作用など、今後も広がります。失敗モードの表面積もそれに伴い拡大するため、Microsoft AI Red Teamは証拠が蓄積されるたびに分類を更新し続ける方針です。