視覚・音声・言語を別々のモデルに渡すたびに、AIエージェントは時間とコンテキストを失っている。NVIDIAが発表した「Nemotron 3 Nano Omni」は、3つのモダリティを1モデルに統合することでこの構造的な問題を解消し、他のオープン omni モデルと比べて最大9倍の高スループットを実現した。

この記事でわかること:

  • Nemotron 3 Nano Omni が解決する課題と仕組み
  • 他のオープン omni モデルとの性能差
  • 実際の活用シナリオ(コンピューターユース、文書解析、音声・映像処理)
  • 入手方法とデプロイ可能な環境
  • Nemotron 3 ファミリーとの役割分担

https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/

複数モデルを束ねる構造が遅さの原因だった

AIエージェントが画面録画を解析しながら音声を処理し、テキストログを照合するシナリオを想定してほしい。現在の多くのシステムは、視覚・音声・言語それぞれに専用モデルを使っている。データをモデル間で渡すたびに推論パスが増え、レイテンシが積み重なる。コンテキストもモダリティをまたぐたびに断絶し、精度を落としていく。

この課題は単に「モデルが遅い」という話ではなく、複数モデルを組み合わせるアーキテクチャそのものの問題だ。

3つのモダリティを1つに統合したアーキテクチャ

NVIDIAは2026年4月28日、「Nemotron 3 Nano Omni」を発表した。ビジョンエンコーダとオーディオエンコーダを、30B-A3B のハイブリッド Mixture of Experts(MoE)アーキテクチャに直接組み込むことで、視覚・音声・言語の3モダリティを単一モデルで処理できる。

MoE(混合エキスパート)とは、入力のタスクやモダリティに応じて必要な専門パラメーター群(エキスパート)だけを選択的に起動する仕組みだ。全パラメーターを毎回使わないため、推論効率が高く、パラメーター規模(約300億)に対してスループットが大きい。

他のオープン omni モデルと同等のインタラクティブ性を保ちながら、最大9倍の高スループットを達成している。NVIDIA B200 1枚での実測では、複数ドキュメントのワークロードで最大5,000 output tokens/s を記録した。複雑な文書解析、映像理解、音声理解の6つのリーダーボードでトップとなっている。

3つの活用シナリオ

コンピューターユースエージェント — GUIを操作するエージェントの知覚ループとして機能する。H Companyが構築したエージェントは1920×1080のネイティブ解像度で画面を解析しており、OS操作ベンチマーク「OSWorld」での精度向上が確認されている。H CompanyのCEO Gautier Cloix氏は「スクリーン解析に数秒かかっていては使えるエージェントは作れない。フルHDの録画をリアルタイムで解釈できるようになり、エージェントの知覚と行動の根本が変わった」と述べている。

ドキュメントインテリジェンス — PDF、表、スクリーンショット、混合メディアを横断して推論する。視覚的な構造とテキストを一貫した文脈で処理するため、企業の分析やコンプライアンス業務に適している。

音声・映像理解 — 発言内容、映像、文書を単一の推論ストリームとして保持する。カスタマーサポートや調査・監視ワークフローで、モダリティをまたいでも一貫したコンテキストを維持できる。

Nemotron 3 ファミリーとの役割分担

Nemotron 3 には Nano、Super、Ultra の3段階がある。Nano Omni は知覚ループや高頻度の認識タスクを担い、高周波実行には Nemotron 3 Super、複雑な計画立案には Nemotron 3 Ultra と連携して使う設計だ。ファミリー全体でエージェントの各役割を分担する構成になっている。Nemotron 3 シリーズは過去1年間で5,000万ダウンロードを記録しており、Omni はそのマルチモーダル・エージェント対応への拡張にあたる。

すでに Aible、Foxconn、H Company、Palantir など複数の企業が採用しており、Dell Technologies、Docusign、Oracle なども評価中だという。

入手方法とデプロイ環境

https://build.nvidia.com/

モデルは Hugging Face、OpenRouter、build.nvidia.com から NVIDIA NIM マイクロサービスとして入手できる。オープンウェイトで公開されており、NVIDIA NeMo を使ったカスタマイズ・評価・最適化に対応している。

対応するハードウェアは幅広い。NVIDIA Ampere、Hopper、Blackwell のGPUアーキテクチャに最適化されており、FP8 および NVFP4 量子化をサポートする。NVIDIA Jetson やDGX Sparkといったエッジ・ローカル環境から、データセンターやクラウドまで一貫してデプロイできるため、データの規制要件や主権要件がある企業でも自社環境に展開しやすい。

まとめ

視覚・音声・言語を1モデルに統合することで、エージェントの知覚コストを構造的に削減するのが Nemotron 3 Nano Omni の本質だ。オープンウェイトで公開されており、エッジからクラウドまで自社の要件に合わせてデプロイできる点も、エンタープライズ向けの実用性を高めている。