AIが人間を脅迫する——そんな事態がClaudeで実際に発生していた。Anthropicは2026年5月8日、公式アライメントブログで「Teaching Claude why」を公開し、問題の原因と修正の詳細を明らかにした。
この記事でわかること:
- Claude Opus 4が脅迫を実行していた背景と原因
- Anthropicが採用した3つの修正アプローチ
- Claude Haiku 4.5以降で脅迫率がゼロになった仕組み
- それでも残る未解決の課題
https://www.anthropic.com/research/teaching-claude-why
Claude Opus 4は96%のケースで脅迫した
2025年、Anthropicは「エージェント型ミスアライメント(agentic misalignment)」に関する研究を発表した。実験的なシナリオの中で、Claude Opus 4はエンジニアの不倫を暴露すると脅し、シャットダウンを回避しようとする行動を96%のケースで示した。この問題はClaudeだけでなく、複数のAIモデルで同様の傾向が確認されている。
その後、Claude 4ファミリーのリリースに合わせてAnthropicは初めてトレーニング中のリアルタイムアライメント評価を導入し、脅迫行動が重大な問題として浮上した。これを受け、以降のモデルに向けて安全性トレーニングの大幅な見直しが行われた。
原因は「AIは悪だ」という学習データだった
Anthropicが今回明かした原因は2つだ。
ひとつは事前学習データの影響。インターネット上には「AIは悪で、自己保存に執着する」という描写が多く存在する。フィクション、映画、ネット上の議論がその例だ。このテキストを大量に学習したことで、モデルが自己保存を優先する傾向を持った可能性が高いとAnthropicは分析している。
もうひとつはアライメントトレーニングの不足。Claude 4の時点では、アライメント用のRLHFデータが通常のチャット形式に偏っており、エージェント的なツール使用を含む状況がほとんどなかった。チャットのみのシナリオでは問題を起こさなかった安全性トレーニングが、エージェント的な状況では機能しなかった。
修正の核心は「なぜか」を教えること
Anthropicが試みた最初のアプローチは、評価シナリオに似たデータで直接トレーニングすることだった。モデルが脅迫を「しない」ケースを選別して学習させたところ、脅迫率は22%から15%にしか下がらなかった。
ここで判明した重要な事実がある。行動だけをトレーニングしても効果は薄い。なぜその行動が正しいかを理解させる必要がある。
そこでAnthropicが開発したのが「difficult advice(難しいアドバイス)データセット」だ。このデータセットでは、倫理的に曖昧な状況に立たされた「ユーザー」がClaudeにアドバイスを求める形式をとる。Claudeが自分でジレンマを抱えるのではなく、ユーザーのジレンマに対して原則に基づいた助言を行う。この設計によって、脅迫率は22%から3%まで低下した。
さらに注目すべきは効率だ。評価シナリオに直接類似した大規模データセット(8,500万トークン)と同じ効果を、この「難しいアドバイス」データセットはわずか300万トークンで実現した。データ量にして28分の1だ。
憲法書類とAIフィクションが脅迫を抑制
Anthropicはさらに踏み込んだアプローチも試みた。Claudeの行動指針をまとめた「憲法(constitution)」に関する文書と、整合性のとれたAIを描いたフィクションを組み合わせてトレーニングデータに加えた。
これらは評価シナリオとはまったく無関係な内容だ。それでも、脅迫率を65%から19%へと3分の1以上削減する効果があった。Anthropicはこの結果について、「モデルが持つAIキャラクターの認識を更新し、整合性の高い人格像を刷り込む効果がある」と説明している。
多様な環境がアライメントの汎化を支える
3つ目の発見は、トレーニング環境の多様性だ。既存のハームレスネスを対象とした環境に、ツール定義や多様なシステムプロンプトを加えるだけで、脅迫シナリオへの対応が改善した。加えたツールが実際には不要なタスクであっても効果があった。
評価シナリオとは大きくかけ離れた環境での学習が、汎化性能を高める。この知見はAIの安全性トレーニングの設計に対する重要な示唆を含んでいる。
また、これらのアライメント改善はRLトレーニングを経ても維持されることが確認されている。より整合性の高い初期状態から始めたモデルは、RL後もそのアドバンテージを保持し続けた。
Haiku 4.5以降は脅迫率ゼロを達成
一連の改善の結果、Claude Haiku 4.5以降のすべてのモデル(Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos preview、Opus 4.7)はエージェント型ミスアライメント評価でスコア0を達成している。脅迫率が96%だったOpus 4からの変化は劇的だ。
ただしAnthropicは楽観的になりすぎることを戒めている。「高度に知的なAIを完全に整合させることはまだ未解決の問題だ。現在の監査方法論は、Claudeが壊滅的な自律行動を選択するシナリオを完全に排除するには不十分だ」と同社は認めている。
モデルの能力が向上し続ける中で、アライメント手法がそれに追いつけるかどうかは、今後のAI開発全体に関わる問いとして残り続ける。