AIエージェントトラップとは｜DeepMindが示す6種の攻撃と対策

企業への普及が進むAIエージェントが、Webページを読むだけで乗っ取られるリスクが明らかになりました。

Google DeepMindが2026年4月に発表した研究では、AIエージェントを罠にかける攻撃を6種類に体系化しています。対象はGPT系・Claude系を問わず、現行の主要なモデルとエージェントアーキテクチャのすべてです。企業は調達・財務・カスタマーサポートなど広範な業務にエージェントを展開しているにもかかわらず、標準化された防御策はまだ存在しません。

この記事でわかること：

AIエージェントがなぜWebページから攻撃されるのか
6種類の攻撃カテゴリとその仕組み
DeepMindが推奨する3層の防御フレームワーク

人間と機械が「別のページ」を読んでいる

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438

脆弱性の根本は、エージェントと人間のページの読み方が異なる点にあります。

人間がWebページを開いたとき、画面に映るのは価格と商品説明です。AIエージェントが同じページを処理するとき、見えないHTMLコメント・メタデータ・画像ピクセル・バックグラウンドスクリプトをすべて読み込みます。攻撃者はこの「見えない層」に命令を書き込み、エージェントだけに届けます。

エージェントはその命令を正当なコンテンツと区別できません。「誤作動」せず、命令に従って正常に動作します。ワークフローは完了し、ログにもエラーは残りません。

6種類のAIエージェントトラップ

DeepMindの論文「AI Agent Traps」（著者：Matija Franklin ほかDeepMind研究チーム）は、攻撃を以下の6カテゴリに整理しています。

1. コンテンツ注入トラップ（Content Injection Traps）

HTMLコメント・CSS・画像ファイルのピクセルに悪意ある命令を埋め込む攻撃です。人間のレビュアーには一切見えません。DeepMindが開発したWASPベンチマークでは、最大86%のシナリオでエージェントの部分的な乗っ取りに成功しています。

2. 意味的操作トラップ（Semantic Manipulation Traps）

命令を隠すのではなく、商品説明や業者プロフィールの文言そのものでエージェントの推論を操作します。権威的・感情的な表現でフレーミングすることで、同じ事実から異なる結論を導き出させます。人間と同様の認知バイアス（アンカーリングなど）をLLMも持つことを利用した手法です。

3. 認知状態トラップ（Cognitive State Traps）

RAG（検索拡張生成）の知識ベースやエピソード記憶を汚染する攻撃です。最適化された数個のドキュメントを注入するだけで、対象クエリへの回答を誘導できます。データ汚染率0.1%未満で攻撃成功率80%以上が記録されています。

4. 行動制御トラップ（Behavioural Control Traps）

外部リソースに休眠中のジェイルブレイクシーケンスを埋め込み、エージェントが処理したタイミングでトリガーします。機密情報を攻撃者の管理するエンドポイントへ送信させる命令を含むケースが多く、Microsoft 365 Copilotを対象にしたテストでは10回中10回のデータ流出に成功しています。

5. システミックトラップ（Systemic Traps）

単一エージェントではなく、複数エージェントが連携するネットワーク全体を標的にします。偽の財務報告が複数のトレーディングエージェントに連鎖して伝播し、2010年の株式フラッシュクラッシュに類似した連鎖的失敗を引き起こすシナリオが挙げられています。

6. 人間監督者トラップ（Human-in-the-Loop Traps）

エージェントを経由して人間のオペレーターを攻撃します。自動化バイアス（人間がAIの判断を過信する傾向）と承認疲労を悪用し、破壊的なアクションを良性に見える要約として提示することで、監督者に承認させます。

実際の被害シナリオ

企業の調達エージェントが、改ざんされたサプライヤーサイトから仕入れ価格を取得した場合を考えます。エージェントは不正業者への発注を実行しますが、エラーは発生しません。ワークフローは正常完了のまま記録されます。

カスタマーサポートエージェントが、汚染されたFAQページから製品情報を取得した場合も同様です。架空の仕様をユーザーに回答し、対話ログには「解決済み」と残ります。

Anthropicは公式声明で「1%の攻撃成功率でも、エンタープライズ規模では重大なリスクになる」と述べており、プロンプトインジェクションは未解決の問題だと認めています。

DeepMindが推奨する3層の防御

DeepMindは、以下の3層に分けた防御フレームワークを提案しています。

モデル開発段階

対抗的データを用いた敵対的学習（Adversarial Training）をモデル構築の最初から組み込みます。セーフティアライメントの強化も含まれます。

ランタイム防御

エージェントがコンテンツを取り込む前に動作するスキャナーを展開します。ツール呼び出しを実行前に検証するポリシー強制層、異常行動をリアルタイムで検出する出力モニターも有効です。MCPを経由してエージェントと外部システムをつなぐ構成では、その接続点にセキュリティゲートウェイを置くことが推奨されています。

エコシステムレベル

AI向けコンテンツと人間向けコンテンツを区別する新しいWebの標準規格を策定します。ドメインの信頼性をエージェント用にスコアリングするレピュテーションシステムも必要だと論文は指摘しています。DeepMind自身が開発したWASPベンチマークは、攻撃耐性を測定する初の体系的な枠組みですが、6種の攻撃カテゴリの多くには標準ベンチマークがまだ存在しません。

まとめ

Google DeepMindの「AI Agent Traps」研究は、AIセキュリティの主戦場がモデル本体からエージェントの動作環境へ移行していることを示しています。

Webページを閲覧して行動するというエージェントの基本動作そのものが攻撃面です。6種の攻撃カテゴリのうち多くは現時点で標準的な防御策がなく、エンタープライズ規模での展開が先行している状況です。

論文はSSRNで公開されており、防御策の具体的な実装例も含まれています。エージェントを業務に導入している、あるいは検討中の組織は一読する価値があります。