Google Gemini Omni登場動画を会話で編集できる

動画生成AIは、プロンプトを一度打ち込んで出力を待つ使い方が主流でした。Googleが2026年5月19日のGoogle I/Oで発表した「Gemini Omni」は、その流れを変えます。テキスト・画像・音声・動画を組み合わせて入力し、会話のように指示を重ねながら映像を直せるのが特徴です。

この記事では、Gemini Omniが何を変えたのか、どこで使えるのかを整理します。

Gemini Omniと初号モデル「Gemini Omni Flash」の位置づけ
マルチモーダル入力と会話型編集の仕組み
提供先と料金（無料枠を含む）
既存の動画生成モデルVeoとの違い
SynthID透かしと音声編集の制限

Googleが掲げるワールドモデルとは

Introducing Gemini Omni

Introducing Gemini Omni, which allows you to create anything from any input and edit naturally using conversational lang…

Google

Google CEOのスンダー・ピチャイは、Google I/O 2026の基調講演でこう説明しています。Gemini Omniは「あらゆる入力から、あらゆる出力形式のサンプルを生成できる」モデルで、まずは動画出力から始めると（参考）。

Google DeepMindのコレイ・カヴクウォグロは、公式ブログで「Geminiの推論能力と創造能力が出会う場所」と表現しています。従来の生成AIが見た目のリアルさを追う段階を超え、物理法則や歴史・文化の文脈を踏まえて「次に何が起きるか」を推論するワールドモデル（世界をシミュレーションするAI）へ進む、という位置づけです。

何が変わったか：Omni Flashの実力

同日リリースされた「Gemini Omni Flash」が、Omniファミリーの最初の公開モデルです。

主な変更点は次のとおりです。

テキスト・画像・音声・動画を自由に組み合わせて入力できる
入力を単純に合成するのではなく、全体を推論して一貫した動画を出力する
音声付きで最大10秒のクリップを生成できる
「照明を暗くして」「犬を猫に入れ替えて」といった会話で、何度でも編集を重ねられる

Google DeepMindのプロダクト管理ディレクター、ニコール・ブリクトヴォヴァはTechCrunchの取材に対し、10秒という長さはモデルの限界ではなく、多くのユーザーに届けるための判断だと述べています（参考）。より長い動画は近い将来に対応予定です。

物理表現も強化されています。重力、運動エネルギー、流体力学といった力の挙動をモデルが理解し、単なるパターンマッチを超えたシーン生成が可能です。公式デモでは、ビー玉が連鎖反応のレールを転がる映像や、粘土アニメ風のタンパク質折り畳み解説などが紹介されています。

背景：Nano BananaとVeoからの進化

Gemini Omniは、昨年話題になった画像生成・編集モデル「Nano Banana」の延長線上にあります。Nano BananaはGeminiの知識を画像領域に持ち込み、写真修復やスケッチからのデザイン生成などに使われてきました。

動画生成では、すでに「Veo」シリーズがテキストや画像から映像を作る専用モデルとして存在します。ブリクトヴォヴァはOmniを「Veoのアップデート」ではなく、「Geminiの知性とメディア生成モデルの描画能力を組み合わせる次の一歩」と位置づけています。

つまり、Veoが映像の質と表現に注力する一方、OmniはGeminiが持つ百科事典的な知識と推論を、動画の生成・編集にそのまま載せる設計です。

使い方：どこで試せるか

‎Google Gemini

Meet Gemini, Google’s AI assistant. Get help with writing, planning, brainstorming, and more. Experience the power of ge…

Gemini

Gemini Omni Flashの提供は2026年5月19日から始まっています。

Geminiアプリ・Google Flow：Google AI Plus・Pro・Ultra加入者（全世界）
YouTube Shorts・YouTube Create：無料（同週から順次）
開発者向けAPI：数週間以内に順次

YouTube ShortsとYouTube Createでは、有料プランに入らなくてもOmni Flashを試せます。個人クリエイターが手軽に使える入口として設計されています。

アバター機能も含まれます。自分の声を使ったデジタル分身を作り、自分そっくりの映像を生成できます。ただし、生成済み動画内の音声や発話内容を編集する機能は、安全面の理由から現時点では意図的に提供されていません。Googleは公式ブログで、ディープフェイク対策の観点から慎重に検証中だと説明しています。

既存機能との違いをどう見るか

VeoとOmniの違いを一言で言えば、「賢さの置き場所」です。

Veoは映像生成・カスタマイズに特化します。Omniは入力モダリティを横断し、Geminiの世界知識で内容を裏打ちします。例えばアルファベット26文字を、それぞれ頭文字の珍しい物（Cはカピバラ、Dはディスコボール）で表現する教育動画のような、言語知識を要するプロンプトも処理できます。

編集ワークフローも異なります。従来型ツールはタイムライン操作が中心でした。Omni Flashでは、生成後もチャットのように指示を重ね、キャラクターの一貫性や物理の整合性を保ったまま変更できます。公式ブログの例では、バイオリン奏者の動画に環境を差し替え、バイオリンを透明にし、カメラアングルを肩越しに変える、という段階的な編集が紹介されています。

安全性：SynthID透かしと今後のAPI

すべてのOmni生成動画には、肉眼では見えないSynthIDデジタル透かしが埋め込まれます。Geminiアプリ、Gemini in Chrome、Google検索から、AI生成かどうかを確認できます。ピチャイは基調講演で、高品質なディープフェイク動画を人が正しく見分けられるのは約4分の1程度だと指摘し、透かしと検証ツールの重要性を強調しました。

開発者向けAPIは数週間以内の提供が予定されています。広告制作や映画制作の現場では、エンドツーエンドのマルチモーダルワークフローが現実的な選択肢になる可能性があります。上位モデル「Omni Pro」も計画されていますが、公開時期は未発表です。