エージェントの強化学習(RL)では、モデル自身が出した行動トークンだけが学習対象になり、環境から返るツール応答は文脈として読むだけで損失に入らない。Prime Intellectが紹介したECHOは、この分離を解消し、行動学習と世界モデリングを同一ロールアウト上で同時に行う手法だ。
この記事では、ECHOの背景、仕組み、実験結果の要点を整理する。
この記事でわかること
- 現行のエージェント学習設計が抱える「エージェントと環境の分離」という問題
- ECHOがRLと世界モデリングを統合する具体的な方法
- forth-langやTerminalBenchでの検証結果と注意点
エージェント学習の盲点は環境応答にある
大規模言語モデル(LLM)の事前学習は、次のトークンを予測する世界モデリングに相当する。一方、エージェント向けのRLでは、モデルが生成したアシスタント側のトークンだけに損失をかけ、ツール実行結果やターミナル出力などの環境応答は学習信号に含めない。
Prime Intellectのブログ記事「True Agents Model the World」では、この設計を次のように整理している。事前学習はシミュレーターを作り、RLはモデル自身の生成だけを改善する。しかし本物のエージェントは、自分の行動が環境にどう影響するかを予測しながら行動する必要がある。
失敗したロールアウトでも、実行ログ、エラーメッセージ、ファイル内容といった環境応答は豊富な情報を含む。にもかかわらず標準的なGRPO(Group Relative Policy Optimization)では、最終的な成否というスパースな報酬だけがポリシー更新に使われる。Microsoft Researchの論文では、Qwen3-8Bの設定ではタスクを解けたロールアウトが15%未満にとどまることもあり、大半の相互作用がポリシー勾配の学習にほとんど寄与しないと指摘されている。
ECHOは環境応答を学習信号に変える
ECHO(Environment Cross-entropy Hybrid Objective)は、Microsoft ResearchのDimitris Papailiopoulos氏らが提案し、Prime Intellectが独自実験でも検証した手法だ。X上の告知では、現行訓練がエージェントと環境を分離したまま進む問題を提起し、ECHOで両者を統合する方針が示された。
仕組みは明快だ。通常のRLでは、アシスタントが生成した行動トークンにのみ非ゼロのアドバンテージ(学習の強さ)を与え、環境応答トークンにはゼロを設定する。ECHOは環境応答トークンにも一定の正のアドバンテージを与え、実質的にその部分を教師あり学習(SFT)として扱う。
Prime Intellectの実装では、ハイパーパラメータalphaでSFTの強さを調整する。同じフォワードパスとバックワードパスをRLと共有するため、追加のロールアウトや推論コストは不要だ。論文側では環境観測トークンへの補助クロスエントロピー損失をGRPO損失に加える形で記述され、損失重みlambda=0.05が実験で使われた。
エージェントが改善するほど新しい環境状態を訪れ、予測すべき応答も変わる。オン・ポリシーで世界モデリングを行う点が、事前学習時の合成データとは異なる強みになる。
forth-langでの検証結果
Prime Intellectは2つのRL環境でECHOを検証した。まずForth言語のプログラミング環境forth-langだ。モデルは公式ドキュメント検索(lookup_doc)、コード実行(run_code)、提出(submit_code)のツールを使う。テストケースはロールアウト完了後にのみ投入されるため、単なるテスト暗記ではなくコード挙動の予測が求められる。
Qwen3-4B-Instruct-2507では、訓練難易度0〜5で学習し、レベル6のテストセットで評価した。ECHOはドメイン内の汎化を一貫して改善し、純粋なRLより高いスコアを記録した。ターン数も少なく、同程度の成果をより短い相互作用で達成したケースがあった。
GLM-4.5-Air(総パラメータ1060億、活性120億)では、alpha=0.05で学習が崩壊する一方、alpha=0.005ではforth-lang評価で純粋RLを上回り、他環境の性能を損なわなかった。1100億規模のモデルほどECHOの恩恵が大きく、手法のスケーラビリティに好意的な兆候だと報告されている。
TerminalBenchでの性能向上
Microsoft Researchの論文では、ターミナルエージェント向けベンチマークTerminalBench-2.0での結果が示されている。Qwen3-8Bのpass@1は2.70%から5.17%へ、Qwen3-14Bは5.17%から10.79%へと、いずれも約2倍に伸びた。内部評価(val100、ITD、TBLite)でも、GRPO単独よりECHOが一貫して高い成功率を示した。
さらに、Qwen3-32Bが生成した未見ロールアウトに対する環境トークンのクロスエントロピーを測ると、GRPO単独ではほとんど変化しないのに対し、ECHOは大幅に低下した。これは、自ら生成していない軌道でもターミナル応答を予測できるようになったことを示し、世界モデリングの学習が実際に進んだ証拠だ。
ベースのQwen3-8BからECHOで学習したモデルは、約1.5万件の専門家デモンストレーションでSFTしたOpenThinker-Agent-v1-SFTを経由したGRPOと、内部評価で同等の性能に到達した。専門家データなしで専門家初期化の恩恵の一部を回収できた点も注目に値する。
適用時の注意点
ECHOは万能ではない。Prime Intellectの実験では、Web検索環境deepdiveのように出力の暗記が主になるタスクでは、1エポック前後で過学習の兆候が出た。アルゴリズム的に予測可能で複雑なツール出力ほど、ECHOは長期間の学習に耐える。
alphaの設定も敏感だ。GLM-4.5-Airではalpha=0.05で崩壊し、alpha=0.005で改善した。環境の性質に応じた調整が必要になる。Prime Intellectは今後、RLフレームワークprime-rlでECHOを柔軟にサポートする予定だと述べている。
エージェントRLの各ロールアウトには、すでに環境の応答が含まれている。ECHOはその埋もれた信号を損失に戻すだけで、失敗軌道からもターミナルやツールの挙動を学べる。データが豊富で過学習リスクが低い環境では、標準RLの有力な拡張になりうる。
