Codex Auto-reviewで長タスクを安全に自動化する

承認プロンプトが出るたびにタスクが止まる——それがCodexを使った長時間自動化の最大の課題でした。OpenAIはこの問題を解消する新モード「Auto-review」をCodexに追加しました。

この記事でわかること:

Auto-reviewが解決する課題
レビューエージェントが承認を判断する仕組み
config.toml への設定方法
リスクレベルに応じた判断ロジック
有効化前に知っておくべきコスト面の注意

承認フローと長時間タスクの相性の悪さ

Codexはデフォルトで、ネットワークアクセスやMCPツールの呼び出しなど外部に影響する操作をユーザーに確認してから実行します。安全性の観点からは正しい設計ですが、テスト実行やCI/CDのような長時間タスクでは問題になります。

人間が離席しているタイミングで承認プロンプトが発生すると、そこで処理全体が止まります。何十分も後に確認してみると「承認待ちのまま」という状況は珍しくありません。夜間バッチや複数ステップのAutomationsで特に顕著で、人間の介在なしに長時間動かし続けることが実質的に難しい状態でした。

Auto-reviewの仕組み

Auto-reviewは人間の代わりに別のエージェントが承認リクエストを評価するモードです。Codexが高リスクな操作に差し掛かると、自動でレビューエージェントが起動し、実行してよいかを判断します。問題がなければそのまま処理が続き、ユーザーが介在する必要はありません。

Codexアプリ上では各承認の状態をリアルタイムで確認できます。表示されるステータスは「Reviewing」「Approved」「Denied」「Stopped」「Timed out」の5種類です。事後に何が判断されたかを追跡できるため、自律的に動かしつつも操作の透明性は保たれます。

Auto-reviewが評価対象とするのは、もともと承認が必要だった操作だけです。サンドボックス内のファイル編集やコマンド実行はこれまでどおり自動で進みます。sandbox escalation、ネットワークリクエスト、request_permissions プロンプト、副作用のあるアプリやMCPツール呼び出しが主な評価対象になります。

設定方法

~/.codex/config.toml に以下の2行を追記します。

approval_policy = "on-request"
approvals_reviewer = "auto_review"

デフォルトは approvals_reviewer = "user" です。auto_review に変更することで、対象操作がユーザーではなくレビューエージェントへルーティングされます。既存のサンドボックス設定は変更不要で、承認フローだけを切り替えられます。

リスクレベルと判断ロジック

レビューエージェントは操作内容をリスクレベルで分類し、以下のルールで承認・拒否を判断します。

低リスク・中リスク: ポリシーが許可する場合は自動承認
高リスク: ユーザー側で十分な承認設定があり、拒否ルールに該当しなければ承認
重大リスク（critical）: 自動的に拒否

チェック対象は主に4項目です。データ流出、クレデンシャルの探索、セキュリティ設定の恒久的な弱体化、破壊的なコマンドの実行が含まれます。タイムアウトやパースエラーが発生した場合はfail-closedで拒否されるため、エラー時に誤って許可されることはありません。

デフォルトのレビューポリシーはCodexのオープンソースリポジトリで公開されているため、判断基準を直接確認することができます。

エンタープライズ向けのカスタマイズ

組織単位でポリシーを調整する場合は、managed requirementsの guardian_policy_config でテナント固有のルールを設定できます。[auto_review].policy テキストも使えますが、managed requirementsが優先されます。管理者は allowed_approvals_reviewers を使ってAuto-reviewの利用可否をコントロールすることも可能です。

エンタープライズ向けの設定については、公式ドキュメントの「Managed configuration」セクションを参照してください。

注意点：追加の使用量が発生する

Auto-reviewはレビュー判断のたびに追加のモデル呼び出しを行います。自動化の規模が大きくなるほど使用量も増えるため、導入前にどの程度の頻度で承認リクエストが発生するかを把握しておくと安心です。

承認が頻繁に発生する環境では自動化の恩恵が大きい一方、コストも増加します。まずは小規模なタスクで試し、使用量の変化を確認してから本格導入するのが現実的なアプローチです。

Auto-reviewが変えるCodexの使い方

承認という操作は本来、人間がリスクを評価して安全を担保するためのものです。Auto-reviewはそのリスク評価をエージェントに委任することで、人間の注意を本当に必要な判断だけに集中させます。

CodexのAutomations機能と組み合わせることで、定期スケジュールで動くタスクが承認待ちで止まることなく完走するようになります。ポリシーはオープンソースで公開されているため、組織のリスク基準に合わせてカスタマイズする余地もあります。設定コストが低く効果が明確な機能なので、長時間タスクを扱うチームはまず試してみる価値があります。