Nvidia Cosmos 3公開物理AI向け世界モデルが一本化

チャットボットはテキストから学ぶLLMで足ります。ロボットや自動運転車は、物体の動きや衝突、次に起きる出来事まで理解する必要があります。Nvidiaは2026年5月31日、COMPUTEX開催中のGTC Taipeiで、物理AI（Physical AI）向けのオープン世界基盤モデル「Cosmos 3」を発表しました。

この記事では、Cosmos 3が従来のCosmosシリーズと何が違うのか、どの用途に向くのか、競合する世界モデルとの位置づけまで整理します。

Cosmos 3が物理推論・世界生成・アクション予測を1モデルに統合した理由
Super・Nano・Edgeの3バリアントの違いと利用方法
ロボティクス・自動運転・スマートスペースでの導入事例
Google Genie 3など他社世界モデルとの使い分け

https://blogs.nvidia.com/blog/cosmos-3-physical-ai-open-world-foundation-model/

LLMでは足りない「物理世界の理解」

物理AIとは、ロボット、自動運転車（AV）、工場や倉庫の監視カメラなど、現実世界で感知・判断・行動するAIシステムを指します。LLM（大規模言語モデル）はインターネット上のテキストからパターンを学びます。一方、世界基盤モデル（World Foundation Model、WFM）は、物体がどう動き、衝突し、落下し、時間とともに変化するかを学習します。

倉庫のピックアンドプレースロボットは、未知の物体配置に対応する必要があります。自動運転車は、駐車中の車の間から飛び出す歩行者のような稀な事象にも備えなければなりません。こうした状況を現実世界だけで何度も再現するのは、時間もコストもかかり、危険なケースはそもそも安全に集められません。

世界基盤モデルは、物理法則に沿った合成データを生成し、このデータ不足を補います。テスト車を何年も走らせる代わりに、数日で数百万シナリオをシミュレーションできます。Nvidia CEOのJensen Huang氏は、発表時に「マルチモーダル推論、言語、ビジョン、世界モデルのブレークスルーにより、物理AIのビッグバンは目前に来ている」と述べています（NVIDIA Newsroom）。

Cosmos 3で変わったこと

Cosmos 3の最大の変更点は、複数モデルを1つのオムニモデルに統合したことです。従来のCosmosシリーズでは、世界生成（Cosmos Predict）、制御付き生成（Cosmos Transfer）、シーン理解（Cosmos Reason）、ポリシー生成（Cosmos Policy）を別々のモデルで扱っていました。Cosmos 3は、Mixture-of-Transformers（MoT）アーキテクチャにより、これらを1つの推論パスで実行します。

MoTは、推論用トランスフォーマーと生成用エキスパートトランスフォーマーを組み合わせた構成です。まずシーン内の物体の相互作用、動き、時空間的な関係を理解し、その文脈をもとに動画やアクション軌道を生成します。テキスト、画像、動画、環境音、アクションの5モダリティをネイティブに扱い、世界初の完全オープンなオムニモデルとして位置づけられています。

動画生成モデルとの決定的な違いは、アクションデータの出力です。Cosmos 3はリアルな映像だけでなく、関節角度、グリッパー位置、軌道点といった数値のアクションデータを生成し、ロボットや車両が「次に何をすべきか」を予測できます。Nvidiaによると、物理AIの学習・評価サイクルは月単位から日単位に短縮されます。

3つのバリアントとベンチマーク

Cosmos 3は用途に応じて3つのサイズで提供されます。

Cosmos 3 Super（640億パラメータ）: 推論32B＋生成32B。最高の物理精度と生成品質が必要なロボティクス・AV向けポストトレーニング用。Hopper・Blackwell GPU向け
Cosmos 3 Nano（160億パラメータ）: 推論8B＋生成8B。数秒以内の動画・アクション推論向け。RTX PRO 6000などワークステーション級GPUで動作
Cosmos 3 Edge: エッジでのリアルタイム推論向け。近日公開予定

オープンモデルとして、Artificial Analysis、Physics-IQ、PAI-Bench、R-Benchの世界生成部門、RoboLab・RoboArenaのアクションポリシー部門、VANTAGE-Bench・TARのビジョン理解部門で首位を記録しています（NVIDIA Blog）。

誰が使っているか

Cosmos 3は単体モデルではなく、Nvidiaの物理AIスタックの中核として展開されています。

ロボティクス分野では、Agile Robotsがヒューマノイドや産業用ロボット向けにアクション条件付きデータを生成し、Doosan Robotics、LG Electronics、Samsung Electronics、Skild AIがCosmosプラットフォーム上で開発を進めています。Agile Robotsは両腕を使った部品ピックアップなど、多様なタスク軌道の合成データ生成にCosmos 3を活用しています。

自動運転ではLi AutoがCosmosを使った開発を行っています。Waabi、Wayve、Foretellixも、交通シナリオや天候、歩行者行動のシミュレーションにNvidia Cosmosモデルを利用しています。

スマートスペースでは、Linker Visionが数千台のカメラ映像に対する空間文脈分析と異常検知にCosmosのビジョン言語推論を組み込んでいます。Centific、Fogsphere、Milestone Systems、Yuanも産業AI・スマートスペース向けにCosmosを採用しています。

あわせて、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIが参加する「Cosmos Coalition」が立ち上がり、次世代オープン世界モデルの共同開発が始まっています。

使い方とライセンス

Cosmos 3 SuperとNanoは、2026年5月31日時点で利用可能です。

試用: build.nvidia.com でブラウザから試せる
モデル取得: Hugging Face（nvidia/Cosmos3-Super、nvidia/Cosmos3-Nano）からウェイトをダウンロード
生成パイプライン: Hugging Face DiffusersのCosmos3OmniPipelineでテキスト・画像・動画生成が数行のPythonコードで実行可能
カスタマイズ: GitHub上のCosmos Frameworkでポストトレーニングスクリプトと推論環境を提供
本番デプロイ: NVIDIA NIMマイクロサービスとして展開

ライセンスはLinux FoundationのOpenMDW 1.1です。ウェイト、アーキテクチャ、ドキュメント、データセット、ベンチマーク、コードを1つのモデル中心ライセンスで扱えます。

ロボティクス向け合成データセット（Embodied-Robot-Scenes、Physical-Interaction-Scenesなど）もHugging Faceで公開されており、自社データが少ない段階から評価を始められます。

Genie 3など競合世界モデルとの違い

物理AI向け世界モデルは、Nvidia以外にも複数のプレイヤーが参入しています。Google CloudのPhysical AIソリューションでも、DeepMindのGenie 3とNvidia Cosmosが並んで紹介されており、用途に応じた使い分けが想定されています（Google Cloud）。

Google DeepMindのGenie 3は、テキストや画像から720p・24fpsのインタラクティブな3D環境をリアルタイム生成する汎用世界モデルです。ユーザー操作に応じてフレームを逐次生成し、数分間の一貫性を保ちます。AGI（汎用人工知能）研究向けの無限カリキュラム学習を目的とした設計で、2026年2月時点ではGoogle AI Ultraユーザー向けのProject Genieプロトタイプとして提供されています。

Cosmos 3との差は、設計思想に表れます。Genie 3はテキストから新規環境を創出する汎用性とリアルタイム操作性を重視します。一方、Cosmos 3は産業用途向けに物理的一貫性とアクション生成を最優先し、ロボットの関節データや自動運転の稀有事象生成まで1モデルでカバーします。動画だけ欲しい用途ならGenie 3、ロボットやAVの学習データ生成が主目的ならCosmos 3、という棲み分けが自然です。

物理AI開発者が押さえるポイント

Cosmos 3は、物理AI開発のボトルネックである「現実データの不足」と「シミュレーション基盤の断片化」を同時に狙ったモデルです。推論・生成・アクションを分離していた従来構成から、MoTによる統合モデルへ移行したことで、パイプライン設計の複雑さが下がります。

ただし、640億パラメータのSuperはHopper・BlackwellクラスのGPUが前提です。手元のワークステーションで試すならNanoから始め、build.nvidia.comやDiffusersで生成品質を確認してからポストトレーニングに進む流れが現実的です。Edge版の公開後は、現場カメラへのリアルタイム推論も視野に入ります。

物理AIの「ビッグバン」が近いとHuang氏が語る背景には、テキスト中心のAIブームから、動きと因果を理解するAIへ焦点が移る業界動向があります。Cosmos 3はその転換点を象徴するオープンモデルとして、ロボティクスから自動運転、スマートシティまで横断的な基盤になり得ます。