Karpathyのautoresearch 寝てる間にAIが100回ML実験

ひと晩眠るだけで、AIが100回の機械学習実験を自走し、改善した変更だけをコミットし続ける。

Andrej Karpathyが2026年3月に公開したOSS「autoresearch」は、AIエージェントにML実験サイクルを丸ごと委ねるための軽量フレームワークだ。公開から2か月足らずで7.7万スターを超え、個人研究者から企業チームまで幅広く採用されている。

この記事でわかること：

autoresearchがML研究のどんな課題を解決するか
3つのコアファイルとそれぞれの役割
5分タイムバジェット設計の意図と効果
AIエージェントを使った実行手順
Karpathy自身とShopify CEOの実際の活用結果

ML研究における「待ち時間」の問題

機械学習研究の実験サイクルには構造的な非効率がある。仮説を立て、コードを書き、学習を走らせ、結果を確認して次の仮説を立てる。この繰り返しに研究者の時間の大部分が費やされ、特に「学習待ち」の時間はほかの作業に使いにくい。

autoresearchはその課題に、AIエージェントへの全面委譲で応える。エージェントが自らコードを修正し、5分間学習させ、改善したか判定して次の実験に進む。人間は翌朝ログを見て結果を確認するだけだ。

コアは3ファイルだけ

GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

AI agents running research on single-GPU nanochat training automatically - karpathy/autoresearch

GitHub

リポジトリの構造は意図的に最小化されており、実質的に3つのファイルしかない。

prepare.py はデータ準備とユーティリティを担うファイルで、エージェントは手を触れない。BPEトークナイザーの学習やデータローダーのロジックが入っており、実験環境の「固定部分」として設計されている。

train.py がエージェントの書き換え対象だ。GPTのモデル構造、MuonやAdamWなどのオプティマイザー設定、バッチサイズ、ハイパーパラメータまで実験変数のすべてがここに集まっており、アーキテクチャから学習率まで何でも変更できる。

program.md は人間が書く「研究指示書」だ。探索の方向性・変更禁止の制約・ループの終了条件をマークダウンで記述する。Karpathyはこれを「超軽量スキル」と呼んでいる。研究者が触るファイルはここだけでよく、エージェントへの指示はすべてこの1枚で表現する。

5分タイムバジェットが実験を比較可能にする

autoresearchの設計で最も特徴的なのが、実験ごとに厳密な5分間のウォールクロック制限を設けている点だ。モデルサイズやバッチサイズを変えても、1回の実験は必ず5分で終わる。

この制約により、すべての実験が同じ土俵で比較できる。1時間あたり12回、一晩（8時間）で約100回の実験が走る計算になる。評価指標はval_bpb（バリデーションビット毎バイト）で、語彙サイズに依存しないため、アーキテクチャを変えた実験同士でも公平に比較できる。

デメリットは結果がGPU環境に依存する点だ。H100で最適化された変更は別のGPUで同じ効果が出るとは限らない。このトレードオフを理解した上で使う設計になっている。

実行手順

必要なのはNVIDIA GPU（H100での動作確認済み）、Python 3.10以上、uvパッケージマネージャーだけだ。

# 1. uvをインストール
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 依存関係をインストール
uv sync

# 3. データ準備（初回のみ、約2分）
uv run prepare.py

# 4. 動作確認（1回だけ学習を走らせる）
uv run train.py

単発実行が成功したら、Claude CodeやCodexなどのエージェントをリポジトリに向けて起動するだけだ。エージェントはprogram.mdを読んで実験ループに入る。

program.mdを確認して、最初のセットアップをしたうえで新しい実験を始めてください。

program.mdに記述する内容の質が、エージェントの探索効率を左右する。「最適化すべき指標」「触れてはいけない部分」「何回実験したら終了するか」を具体的に書くほど、有効な改善を見つけやすくなる。

実際の活用結果

Karpathy自身は2日間autoresearchを動かし、depth=12モデルで約20個の改善変更を発見した。各変更は互いに独立して有効であり、より大きなdepth=24モデルにも転移することを確認している（参考）。

Shopify CEOのTobi Lutkeは社内のクエリ拡張モデルに適用し、37回の実験で0.8Bパラメータモデルのバリデーションスコアを19%改善したと報告した。

コミュニティによるフォークも活発で、macOS（MLX対応）・Windows（RTX対応）・AMD ROCm対応の各バージョンがすでに登場している。

H100がなくても試す方法がある

NVIDIA GPU必須という制約のため、手元に高性能GPUがない場合は動かせない。ただしコミュニティフォークを使えばApple SiliconやWindows RTX環境でも実行できる。モデルを小さくしたい場合はprogram.mdに指示を追加し、DEPTHパラメータを8から4に下げるなどの調整が必要になる。

MITライセンスで公開されており、Claude CodeやCodexから利用できる。研究ループの自動化に興味があれば、まずREADMEのprogram.mdセクションを読んで、エージェントへの指示の書き方を把握するところから始めるのが近道だ。