Claude CodeやCodexを使っていると、良い指示を出しても途中で止まり、微修正を人手で回し続ける場面が出ます。Autoresearchは、その手間を「目標」「指標」「検証」の3点に落として、改善ループそのものを自動化するスキルです。
https://github.com/uditgoenka/autoresearch
この記事では、Autoresearchが何を解決するのか、通常のエージェント運用とどこが違うのか、実務でどう使うのかを整理します。
- 反復改善を人手で回す負担を減らす方法
- 目標、メトリクス、検証をどう固定するか
- Claude Code、OpenCode、OpenAI Codexでの使い分け
Autoresearchの役割
Autoresearchは、エージェントに「考えさせる」より「回させる」ための仕組みです。GitHubのREADMEでは、目標を設定し、変更を1つずつ加え、機械的な検証で良し悪しを判定し、悪化したら戻す流れが示されています。ここで重要なのは、成功の判断を主観に寄せないことです。テストの通過率、ベンチマークのスコア、カバレッジ、ビルドサイズなど、数値で確認できる指標に寄せます。
この発想は、普通のチャット型支援と違います。会話で都度方針を決めるのではなく、最初にゴールと評価軸を決めたら、以後は改善の試行を連続実行します。人間は戦略を決め、エージェントは実行を回す。役割が分かれるので、作業の密度が上がります。
何が便利か
Autoresearchの価値は、修正のたびに「これで良くなったか」を毎回考えなくてよい点にあります。たとえば、テスト数を増やす、バンドルサイズを下げる、エラー率を減らす、といったタスクは相性が良いです。1回ごとに1変更だけ入れ、検証で勝った案だけ残すので、途中経過が荒れにくいです。
READMEには、失敗した変更を自動で revert し、結果をログに残す前提も書かれています。つまり、試行錯誤を捨てずに履歴として残しながら、成果物だけを前へ進めます。この設計は、長時間走らせる改善タスクで効きます。手元で逐次監視しなくても、一定のルールで前進し続けるからです。
使いどころ
向いているのは、数値で判定できる作業です。コードならテスト、lint、型チェック、カバレッジ、性能測定が基準になります。文章やマーケティングでも、クリック率、CVR、文字数、生成時間のような指標を置けます。逆に、正解が曖昧な企画会議や、感性が中心のデザイン最終判断は向きません。評価軸がぶれると、ループが最適化する先もぶれます。
実務では、最初から大きな目標を与えない方が安定します。スコープを小さく切り、変更可能な範囲を限定し、検証コマンドを固定します。たとえば「このディレクトリだけ修正」「npm test が通ること」「カバレッジが下がらないこと」のように、機械で測れる条件に寄せます。ここが曖昧だと、エージェントの動きも曖昧になります。
Claude Code、OpenCode、Codexでの違い
Autoresearchは、Claude Code、OpenCode、OpenAI Codex をまとめて扱える点が特徴です。README上では、同じ思想を複数の実行環境へ展開しています。つまり、この仕組みの本体はモデルではなくワークフローです。どのエージェントを使うかより、どう測ってどう戻すかの方が重要だという設計です。
Claude Codeでは、指示と技能の結びつきが強く、対話しながら改善を進めやすい構成です。OpenCodeでは、コマンド命名や導線が少し異なります。Codexでも同じ思想を持ち込めるので、環境をまたいで改善ループの型を揃えやすくなります。チームで複数のエージェントを併用するなら、この共通化はかなり効きます。
導入時の注意点
最初に決めるべきなのは、何を「良い」とするかです。テストが通るだけでは弱いなら、速度やサイズも入れます。安全性が必要なら、危険コマンドの遮断やセキュリティ監査を検証に入れます。評価軸が増えるほど便利ですが、増やしすぎると判断が遅くなります。最初は1つの主指標に絞り、必要なら補助指標を足す方が安定します。
もう1つ重要なのは、スコープ外の変更を許さないことです。反復改善は強力ですが、対象が広いと副作用も広がります。Autoresearchが「1回で1変更」を強く勧めているのは、そのためです。局所的な改善を積み重ねた方が、どの変更が効いたかも追いやすくなります。
まとめ
Autoresearchは、エージェントに雑に働かせる道具ではなく、改善作業を機械化するための運用テンプレートです。目標を決め、計測方法を固定し、1変更ずつ回し、悪化したら戻す。この流れがあるだけで、Claude CodeやCodexは「会話相手」から「反復改善エンジン」に変わります。数値で追える課題を抱えているなら、最初に試す価値があります。