動画生成AIは、プロンプトを一度打ち込んで出力を待つ使い方が主流でした。Googleが2026年5月19日のGoogle I/Oで発表した「Gemini Omni」は、その流れを変えます。テキスト・画像・音声・動画を組み合わせて入力し、会話のように指示を重ねながら映像を直せるのが特徴です。

この記事では、Gemini Omniが何を変えたのか、どこで使えるのかを整理します。

  • Gemini Omniと初号モデル「Gemini Omni Flash」の位置づけ
  • マルチモーダル入力と会話型編集の仕組み
  • 提供先と料金(無料枠を含む)
  • 既存の動画生成モデルVeoとの違い
  • SynthID透かしと音声編集の制限

Googleが掲げるワールドモデルとは

Google CEOのスンダー・ピチャイは、Google I/O 2026の基調講演でこう説明しています。Gemini Omniは「あらゆる入力から、あらゆる出力形式のサンプルを生成できる」モデルで、まずは動画出力から始めると(参考)。

Google DeepMindのコレイ・カヴクウォグロは、公式ブログで「Geminiの推論能力と創造能力が出会う場所」と表現しています。従来の生成AIが見た目のリアルさを追う段階を超え、物理法則や歴史・文化の文脈を踏まえて「次に何が起きるか」を推論するワールドモデル(世界をシミュレーションするAI)へ進む、という位置づけです。

何が変わったか:Omni Flashの実力

同日リリースされた「Gemini Omni Flash」が、Omniファミリーの最初の公開モデルです。

主な変更点は次のとおりです。

  • テキスト・画像・音声・動画を自由に組み合わせて入力できる
  • 入力を単純に合成するのではなく、全体を推論して一貫した動画を出力する
  • 音声付きで最大10秒のクリップを生成できる
  • 「照明を暗くして」「犬を猫に入れ替えて」といった会話で、何度でも編集を重ねられる

Google DeepMindのプロダクト管理ディレクター、ニコール・ブリクトヴォヴァはTechCrunchの取材に対し、10秒という長さはモデルの限界ではなく、多くのユーザーに届けるための判断だと述べています(参考)。より長い動画は近い将来に対応予定です。

物理表現も強化されています。重力、運動エネルギー、流体力学といった力の挙動をモデルが理解し、単なるパターンマッチを超えたシーン生成が可能です。公式デモでは、ビー玉が連鎖反応のレールを転がる映像や、粘土アニメ風のタンパク質折り畳み解説などが紹介されています。

背景:Nano BananaとVeoからの進化

Gemini Omniは、昨年話題になった画像生成・編集モデル「Nano Banana」の延長線上にあります。Nano BananaはGeminiの知識を画像領域に持ち込み、写真修復やスケッチからのデザイン生成などに使われてきました。

動画生成では、すでに「Veo」シリーズがテキストや画像から映像を作る専用モデルとして存在します。ブリクトヴォヴァはOmniを「Veoのアップデート」ではなく、「Geminiの知性とメディア生成モデルの描画能力を組み合わせる次の一歩」と位置づけています。

つまり、Veoが映像の質と表現に注力する一方、OmniはGeminiが持つ百科事典的な知識と推論を、動画の生成・編集にそのまま載せる設計です。

使い方:どこで試せるか

Gemini Omni Flashの提供は2026年5月19日から始まっています。

  • Geminiアプリ・Google Flow:Google AI Plus・Pro・Ultra加入者(全世界)
  • YouTube Shorts・YouTube Create:無料(同週から順次)
  • 開発者向けAPI:数週間以内に順次

YouTube ShortsとYouTube Createでは、有料プランに入らなくてもOmni Flashを試せます。個人クリエイターが手軽に使える入口として設計されています。

アバター機能も含まれます。自分の声を使ったデジタル分身を作り、自分そっくりの映像を生成できます。ただし、生成済み動画内の音声や発話内容を編集する機能は、安全面の理由から現時点では意図的に提供されていません。Googleは公式ブログで、ディープフェイク対策の観点から慎重に検証中だと説明しています。

既存機能との違いをどう見るか

VeoとOmniの違いを一言で言えば、「賢さの置き場所」です。

Veoは映像生成・カスタマイズに特化します。Omniは入力モダリティを横断し、Geminiの世界知識で内容を裏打ちします。例えばアルファベット26文字を、それぞれ頭文字の珍しい物(Cはカピバラ、Dはディスコボール)で表現する教育動画のような、言語知識を要するプロンプトも処理できます。

編集ワークフローも異なります。従来型ツールはタイムライン操作が中心でした。Omni Flashでは、生成後もチャットのように指示を重ね、キャラクターの一貫性や物理の整合性を保ったまま変更できます。公式ブログの例では、バイオリン奏者の動画に環境を差し替え、バイオリンを透明にし、カメラアングルを肩越しに変える、という段階的な編集が紹介されています。

安全性:SynthID透かしと今後のAPI

すべてのOmni生成動画には、肉眼では見えないSynthIDデジタル透かしが埋め込まれます。Geminiアプリ、Gemini in Chrome、Google検索から、AI生成かどうかを確認できます。ピチャイは基調講演で、高品質なディープフェイク動画を人が正しく見分けられるのは約4分の1程度だと指摘し、透かしと検証ツールの重要性を強調しました。

開発者向けAPIは数週間以内の提供が予定されています。広告制作や映画制作の現場では、エンドツーエンドのマルチモーダルワークフローが現実的な選択肢になる可能性があります。上位モデル「Omni Pro」も計画されていますが、公開時期は未発表です。