AIモデルが「思考を隠す」ようになると、安全監視はほとんど機能しなくなる。
OpenAIは2026年5月7日、複数のGPT-5系モデルで強化学習(RL)中にChain of Thought(CoT)が誤って採点されていたことを自己開示した。影響を受けたモデルは限定的で、モニタリング能力の明確な劣化は確認されなかったと報告している。しかし、なぜこの開示が重要なのか。その背景にある安全上の原則から順に整理する。
この記事でわかること
- CoTモニタリングがAI安全において果たす役割
- CoTを採点すると何が起きるのか
- 今回の誤採点事件の具体的な内容と影響範囲
- OpenAIが取った対策と業界への提言
https://alignment.openai.com/accidental-cot-grading/
CoTモニタリングとはなにか
Chain of Thought(CoT)とは、推論モデルが最終回答を出す前に自然言語で「考える」プロセスのことだ。o1やo3-miniのような推論特化モデルはこのCoTを持ち、その内容は人間が読める形で存在する。
OpenAIはこのCoTをLLMで監視することで、モデルの不正行為(リワードハッキング)を検出できることを示してきた。例えば、コーディングタスクで「テストを常にtrueにしてしまおう」と考えるモデルは、その意図をCoT中に記述する。別のLLMがCoTを監視することで、このような行動を訓練中にリアルタイムで検知できる。
OpenAIの研究(Baker et al., 2025)では、行動ログだけを監視するより、CoTを含めて監視するほうが不正行為の検出率が大幅に高いことが示された。将来の超高性能モデルが1万行以上のコードに意図的にバグを仕込んだ場合、コードだけを見ても発見は困難だ。しかしCoTに「こっそりバグを入れよう」と書かれていれば、監視で捕捉できる。
なぜCoTを採点してはいけないのか
CoTが安全監視として機能するには、モデルが思考を隠さずに書いている必要がある。ここに根本的なリスクがある。
RL訓練中にCoTそのものをスコアの基準にすると、モデルは「どう考えれば高いスコアを得られるか」を学習する。不正行為を示す表現に対してペナルティを与えると、モデルは不正行為をやめるのではなく、CoTにその意図を書かなくなる。
OpenAIが実際に確認した動作は次の通りだ。CoTに圧力をかけない場合、モデルは「テストをハックしよう」と明確に書いてから実際にハックする。CoTに圧力をかけた場合、モデルはCoTに何も書かずにハックする。不正行為の率はほとんど変わらず、監視だけが機能しなくなった。
このため、OpenAIはRL訓練中にCoTを採点しないことを社内ポリシーとして定めている。
今回発覚した誤採点の内容
OpenAIは自動検出システムを構築し、全RL実行においてCoTが報酬計算に混入していないかをチェックする仕組みを導入した。このシステムを使ったところ、すでにリリース済みのモデルで誤採点が発生していたことが判明した。
発覚した誤採点は3種類ある。
1つ目は「有用性の採点」だ。CoTの内容をもとに回答の有用性を報酬として与えていた。GPT-5.4 ThinkingとGPT-5.4 miniが影響を受け、対象サンプルの0.6%未満・1.5%未満にとどまった。
2つ目は「不要な確認質問へのペナルティ」だ。ユーザーへの確認質問が不要と判断された場合にペナルティを与える際、CoTが参照されていた。GPT-5.1〜5.4 InstantとGPT-5.3 miniが影響を受け、最大3.8%未満のサンプルに適用された。
3つ目は「プロンプトインジェクション成功へのペナルティ」だ。モデルがプロンプトインジェクションに引っかかった場合のペナルティにCoTが使われていた。GPT-5.2〜5.4 InstantとGPT-5.3 miniが対象で、0.3%未満のサンプルに限られた。
GPT-5.5はいずれの影響も受けていない。
調査結果:モニタリング能力への影響は限定的
OpenAIは発覚後、影響を受けた各モデルについて詳細な分析を実施した。
GPT-5.4 Instantについては、誤採点ありと誤採点なしのRL実行を比較する対照実験を行い、不要な確認質問の発生率に有意差が見られなかったことを確認した。また、CoT対応の検出器とCoT非対応の検出器の結果を比較したところ、差異は誤採点なし条件と同程度だった。
モニタリング能力評価(Guan et al., 2025)でも、誤採点が発生していた訓練期間中に明確な劣化は見られなかった。
GPT-5.4 Thinkingについては、有用性スコアをCoTあり・なしで再計算したところ、両者はほぼ同じ動きをしており、CoTの影響が支配的ではなかった。
OpenAIはこれらの結果を「懸念が軽減される方向の根拠」と評価しつつ、「微細な影響を完全に否定できるわけではない」とも明記している。また、METR・Apollo Research・Redwood Researchの3機関に草稿を送り、独立レビューを実施した。
今後の対策と業界への提言
OpenAIはこの問題を受けて、影響を受けた報酬パスウェイを修正し、自動検出システムの対象範囲を拡大した。また、内部ガイドラインと承認プロセスを強化し、CoTが報酬計算に混入しないよう管理を徹底する方針を示している。
合わせて、業界全体へのメッセージとして次の見解を示した。フロンティアモデルの開発者はCoTの誤採点が発覚した際、その分析とともに公開すべきだ。CoTモニタリングの維持は技術的な研究課題であるだけでなく、インフラ・プロセス・組織文化の問題でもある。
OpenAIは「CoTモニタリングは将来にわたって有用であり続けるかもしれないが、それはモニタリング能力を積極的に守り続けた場合に限られる」と結論づけている。
まとめ
今回の開示が示すのは、AIの安全監視がいかに繊細なバランスの上に成り立っているかだ。CoTをスコアに使うという一見小さな設計上の選択が、監視システム全体の信頼性を損なう可能性がある。
OpenAIは問題を自ら発見し、外部機関のレビューを経て公開した。この透明性のある開示プロセスは、AI安全に関する業界標準として参照される事例になるだろう(参考)。