物理シミュレーションの制御は、タスクごとにゼロから作り直すのが常識でした。NVIDIAがSIGGRAPH 2026で発表したGenerative Pretrained Controllers(GPC)は、その発想を「動きのGPT」として書き換えます。
この記事では、GPCがどの課題を解くのか、3段階の仕組み、実験で確認された性能と限界までを整理します。
この記事でわかること
- 従来の物理ベース制御が抱える「タスク専用コントローラ」問題
- GPCが動きをトークン化し、次トークン予測で制御する流れ
- 600時間超のデータで学習した結果と、倒れ復帰などの出現行動
- 新タスクへの適応方法と、今後の拡張余地
課題は「動きの制御を一度きりで捨てる設計」
映画、ゲーム、XRなどでキャラクターを自然に動かすには、物理シミュレーション上で関節トルクを制御するポリシーが必要です。従来は歩行やバランス回復など、スキルごとに手作業の報酬設計や専用コントローラを用意する手法が主流でした。
近年はモーションキャプチャを教師にした模倣学習で、報酬設計の負担は下がっています。それでも多くの研究は「1タスクにつき1コントローラ」という前提のままです。NVIDIA AIの公式投稿でも、多くのモーション論文が特定タスク向けコントローラに閉じている点を課題として挙げています(参考)。
一方で、連続潜在空間を使う生成コントローラは表現力は高いものの、モード崩壊や潜在空間の隙間により、宙返りのような激しい動きで破綻しやすいという問題も報告されています。大規模データへの拡張も、VQ-VAE系の離散化ではコードブックの学習が不安定で、20時間程度のデータ規模にとどまる例が多かったと論文は整理しています。
GPCは「動きの語彙」を作り、GPT方式で次の動きを予測する
GPCは、大規模モーションデータから汎用の生成コントローラを事前学習する枠組みです。論文タイトルは「GPC: Large-Scale Generative Pretraining for Transferable Motor Control」で、SIGGRAPH Conference Papers ’26(2026年7月19〜23日、ロサンゼルス)に採択されています。著者はSimon Fraser UniversityとNVIDIAの共同チームです。
DataChaz氏の投稿では、この研究を「physical movementのためのGPT」と表現しています(参考)。言語モデルが単語列をトークン化して次の単語を予測するのと同様に、GPCはモータースキルを離散トークンの列として表し、トランスフォーマーで次トークン予測により制御信号を生成します。
フレームワークは3段階で構成されます。
- スキル量子化: モーション追跡コントローラが、Finite Scalar Quantization(FSQ)で動きを離散コードに写像する
- 生成コントローラ学習: GPT型の自己回帰トランスフォーマーが、スキルトークンの分布を学習する
- タスク適応: 事前学習済みモデルを、軽量な適応層で新タスクに微調整する
FSQがVQ-VAEの弱点を避け、大規模学習を安定させる
離散表現は、連続潜在空間よりデータ分布から外れにくいという利点があります。従来のVQ-VAE方式は、コードブックの利用率低下やデッドコード再初期化といった工夫が必要で、大規模データでの学習が難しくなりがちです。
GPCはFSQを採用し、明示的なコードブックを持たずに各次元を固定レベルへ丸める方式で離散化します。論文では、モーション追跡目的でエンコーダとデコーダを強化学習でエンドツーエンド最適化する点を強調しています。事前学習した運動学エンコーダを固定する方式より、追跡成功率と関節位置誤差の両面で優位だったと報告されています。
学習データはBonesデータセットの680時間とAMASSの40時間などが使われ、論文全体では600時間超のモーションクリップで事前学習したと述べられています。FSQ追跡コントローラは、大規模コーパスに対して99.98%の追跡成功率を記録しました。評価はIsaac Gym上の物理シミュレーションで行われ、学習基盤にはNVIDIAのProtoMotionsフレームワークが使われています。
倒れ復帰や宙返りが、個別の報酬設計なしに出現する
生成コントローラは、無条件サンプリングで跳躍、回転、ダンス、アクロバットなど多様なスキルを生成できます。論文が特に示すのは、外乱への応答です。腕や脚、背骨に力が加わると、カートホイールに近い回復や歩幅調整、自然な転倒からの立ち上がりへ遷移する挙動が観測されています。
倒れ復帰の報酬を個別に設計していない点が重要です。600時間超の動きから学んだ分布の中に、転倒後の立ち上がりスキルが含まれ、外乱時にそれを選んで実行する、というメカニズムです。NVIDIA AIの説明でも、物理シミュレーション内でリアルタイム動作し、インタラクティブ制御に耐える自然な挙動を出すと紹介されています。
推論時は、トランスフォーマーがトークン列を自己回帰的に生成し、凍結したFSQデコーダが関節の目標回転へ変換します。サンプリングにはnucleus(top-p)サンプリングを使い、低確率の外れ値を抑えつつ多様性を保ちます。グルーピング係数G=5の設定では、約92.85 FPSの推論速度が報告され、学習後はNVIDIA RTX 4090級のGPUでも動作可能とされています。
新タスクは追加パラメータ1%未満で適応できる
事前学習の価値は、下流タスクへの転用にあります。GPCはConditional Low-rank Adaptation(CoLA)というパラメータ効率の良い微調整を提案し、凍結した生成モデルに軽量な変調層を足す方式です。追加パラメータは1%未満と論文に明記されています。
適応手法は強化学習微調整(RLFT)と教師あり微調整(SFT)の両方に対応します。ターゲット到達、軌道追従、ジョイスティック操作、ジャンプや這い移動を要するシーン操作など、移動系タスクで検証されています。SFTを先に適用すると、例えばしゃがみ歩きのスタイルを安定して再現しやすくなる一方、行動の多様性は下がるというトレードオフも報告されています。
連続潜在空間のCVAEベースラインと比較すると、同一タスク条件でもGPCは軌道のばらつきを保ち、決定論的に同じ動きを繰り返すCVAEより行動の多様性が高いと論文は示しています。シミュレータの確率性による微小な差ではなく、潜在コードのサンプリングに由来する違いです。
ロボティクス文脈での位置づけと限界
GPCはキャラクターアニメーション向けの研究ですが、動きのトークン化と事前学習という発想は、ヒューマノイド制御や強化学習の文脈にも接続します。同じSIGGRAPH 2026でNVIDIAはMotionBricksなど関連研究も発表しており、GR00T Whole-Body Controlの動作生成層と連携する方向も示されています。GPC単体が実機ロボット向けにデプロイされたとは論文では述べられていません。
著者が挙げる限界も押さえておく必要があります。評価は主に移動系タスクに集中しており、テキスト条件などのマルチモーダル拡張や、人と物体の相互作用は今後の課題です。物理シミュレーション内での成功が、実世界のロボット制御へそのまま写像できるかは、別途検証が要ります。
制御の「事前学習」という発想の意味
GPCが示すのは、LLMで言語を事前学習してからタスクに適応する流れを、物理的な動きへ持ち込んだ点です。タスクごとにコントローラを組み直す代わりに、600時間超の動きから共通の生成コントローラを学び、1%未満の追加パラメータで新しい操作課題へ寄せられる。倒れ復帰のような複雑な行動が、個別設計なしに出現する事例は、その汎用性の説得力になります。
SIGGRAPH 2026で公開された論文とarXiv版(参考)が、物理シミュレーション、強化学習、基盤モデルの接点を探る読者にとって、設計思想を追う入口になります。
