ワールドモデルが「きれいに予測できるか」と「行動選択に使えるか」は、別の問題です。

2026年7月2日、RekaがWorldModelGymを公開しました。エージェントがワールドモデルの予測に基づいて行動を選んだとき、現実世界で正しい結果につながるかを測るベンチマークです。Rekaはこの評価軸をdecision-based fidelity(意思決定に基づく忠実度)と呼んでいます(参考)。

この記事では、WorldModelGymが何を測り、どう評価するのか、既存ベンチマークとの違いを整理します。

この記事でわかること

  • decision-based fidelityが指す評価の意味
  • 5択の行動列とnormalized regretによる採点方法
  • latent・予測・ピクセル系モデルを同一条件で比べる仕組み
  • PhysicalRealismBenchとの役割分担
  • 100超タスクの対象環境と参加方法

ワールドモデル評価の盲点を埋めるベンチマーク

https://reka.ai/news/worldmodelgym

ワールドモデルは、状態と行動を入力に次の状態と報酬を予測する環境の近似表現です。予測を連鎖させれば、エージェントは行動の結果を頭の中でシミュレーションできます。

これまでのベンチマークは、映像の物理的なもっともらしさ、ロールアウト精度、再構成品質、計画の成功率などを測るものが中心でした。WorldModelGymは、その輪にdecision-based fidelityを加えます。モデルの予測が、実際の意思決定にどれだけ役立つかを、現実環境での行動結果から間接的に評価します。

RekaはXでも「エージェントがワールドモデルを使って行動を選ぶとき、正しい選択ができるか」という問いを軸にしたベンチマークだと説明しています(参考)。

見た目のリアルさとシミュレータとしての有用性は別物

ワールドモデル研究では、生成映像が自然に見えるかどうかに注目が集まりがちです。一方、ロボットやゲームエージェントが本当に必要とするのは、行動の結果を正しく見積もれるシミュレータかどうかです。

Rekaは同年6月に公開したPhysicalRealismBenchと対比して、この違いを明確にしています。PhysicalRealismBenchはVLMが物理法則違反を検出できるかを測ります。WorldModelGymは「そのモデルは、エージェントが現実で成功するのに十分なシミュレータか」を問います。世界を理解していることと、シミュレータとして使えることは別の性質であり、両ベンチマークは同じ目標の異なる側面をカバーする設計です(参考)。

評価プロトコルは5択の行動列テスト

WorldModelGymの評価は、オープンループの行動列比較です。各問題で5つの行動列が提示されます。うち4つは似た見た目のバリエーション、1つはランダムな選択肢です。実環境ですべての列を事前に実行済みのため、正解となる最良列と最悪列の報酬は既知です。

評価時、ワールドモデルは凍結フレームと8フレーム分の観測履歴で初期化されます。各行動列について未来をシミュレーションし、累積報酬を予測します。環境に依存しないargmaxルールで、予測報酬が最も高い列を選びます。この選択ルールは全テストで固定のため、スコア差はモデルの予測精度の差として読み取れます。

主指標はnormalized regret(正規化後悔)です。

normalized_regret = (best_return − true_return_of_the_picked_sequence)
                    / (best_return − worst_return)

スコア0は最適列を選んだ状態、1はランダム選択と同等です。飛行機の自動操縦に例えると、長時間の実飛行で墜落を待つのではなく、複数の操縦手順をシミュレーションして最良のものを選べるかを問う、という説明が公式ブログにあります。

補助指標としてreward-prediction error(報酬予測誤差)も用意されています。最適列を偶然選んだモデルと、予測そのものが正確なモデルを区別するためです。Meta-Worldのbutton-pressタスクでは、最良列の報酬620に対し、似た動きでボタンをほとんど押せない列は210〜270、ランダム列は33という具体例が示されています(参考)。

Gymnasium契約でモデル形式を問わない

WorldModelGymは強化学習の業界標準であるGymnasiumの契約を拡張し、学習済みワールドモデルを環境シミュレータとして扱います。モデルは行動を選ぶ側ではなく、行動を受け取って次状態と報酬を返す側です。

class WorldModel:
    def init(self, obs_history, context=None):  # 実履歴を状態にエンコード
    def step(self, state, action):              # 次状態と報酬を予測

状態表現は評価器から不透明オブジェクトとして扱われるため、JEPA形式の潜在ベクトル、トークン列、ピクセルベースの動画モデルなど、形式を問いません。凍結状態から分岐して複数プランを効率的に評価できることが主な要件です。latent・予測・ピクセル系モデルを同一の凍結ポリシー下で比較できる点が、設計上の特徴です。

提出は軽量アダプター経由で行います。アダプターの標準チェックと統一フォーマットにより、異なるモデル間の比較が保たれます。検索ベースの代替手法のような大規模ロールアウトを要さず、計算コストの高いモデルでも評価が現実的な範囲に収まるよう設計されています。

100超タスクが揃う環境ファミリー

WorldModelGymは公開時点で100超のトラックを収録しています。対象環境はAtariゲーム、Meta-Worldの操作タスク、DeepMind Control、クラシック制御です。

環境選定にも意図があります。効果的な強化学習タスクが、そのままワールドモデルベンチマークに適するとは限りません。WorldModelGymは固定履歴ウィンドウで観測可能な環境、制御された確率性で再現可能なリセット、予測誤差が意味を持つ十分なホライズンを重視しています。各トラックは環境・正規観測・スコア範囲を宣言ファイルで定義され、評価器本体を変えずにスイートを拡張できます。

リーダーボードは各トラックごとに、実環境での評価ポリシーのプレビューとベースラインスコアを表示する予定です。現時点では「近日公開」とされており、評価依頼や質問はcontact@reka.ai宛てに受け付けています。

測れないことも事前に明示されている

WorldModelGymは意思決定に関わる精度に焦点を当てます。想像上のフレームがどれだけリアルに見えるかは評価しません。テストがオープンループであるため、実運用で直面する長期間のクローズドループ挙動も捉えません。

この限界は、ベンチマークの位置づけを誤解しないうえで重要です。映像品質や物理理解の評価はPhysicalRealismBenchやWorldModelBenchなど既存手法に任せ、WorldModelGymはシミュレータとしての意思決定有用性に特化します。3つの軸を組み合わせることで、ワールドモデルの実用性を多面的に見られる、というのがRekaの狙いです。

参加の条件はシンプル

観測履歴をエンコードし、行動を受け取って報酬を予測できるワールドモデルなら、WorldModelGymで採点可能です。各トラックには問題・選択肢メニュー・事前計算済みの実報酬が同梱され、提出物はスイート全体のnormalized regretで評価されます。

エージェント開発やワールドモデル研究の現場では、「予測は上手いが行動選択には使えない」モデルを見逃すリスクがあります。WorldModelGymはそのギャップを数値で可視化する試みであり、100超タスクと統一インターフェースにより、次世代のワールドモデル比較の共通言語になりうる枠組みです。