Gemini Embedding 2が変える検索基盤テキスト以外を同じ空間で扱う

RAGを本気で使うなら、次の差は「生成」より「埋め込み」に出ます。Gemini Embedding 2は、テキストだけでなく画像、動画、音声、PDFまで同じ埋め込み空間に入れる新しいモデルです。検索、分類、推薦、記憶の設計が一段変わります。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

この記事でわかること
– Gemini Embedding 2の何が新しいか
– 既存のテキスト専用埋め込みと何が違うか
– RAGやセマンティック検索でどう効くか
– 使い始めるときの前提と注意点

何が変わったのか

Gemini Embedding 2は、Googleが公開プレビューで出した初のネイティブなマルチモーダル埋め込みモデルです。単なる「テキストのベクトル化」ではありません。画像、動画、音声、ドキュメントをまとめて埋め込みに変換し、意味の近さで扱えます。Googleはこれにより、RAG、セマンティック検索、感情分析、データクラスタリングを簡単にできると説明しています。

重要なのは、入力の種類ごとに別々のパイプラインを作らなくてよい点です。従来は、画像は画像、音声は文字起こし、PDFは抽出テキストというように前処理を分ける必要がありました。Gemini Embedding 2は、その分岐を減らします。設計の中心が「媒体ごとの変換」から「意味の統合」に移ります。

なぜ実務で効くのか

埋め込みモデルの役割は、似ているものを近くに置くことです。検索対象がテキストだけなら、従来のモデルで十分な場面もあります。ですが、実務では資料、画像、会議音声、画面キャプチャ、動画クリップが混在します。ここでテキスト専用の埋め込みだけを使うと、情報の一部が落ちます。

Gemini Embedding 2は、その断絶を埋めます。たとえば、サポート業務なら問い合わせ文、添付画像、操作動画を同じ検索基盤で扱えます。営業なら提案書、録画デモ、製品画像をまたいで関連情報を拾えます。社内ナレッジでも、議事録と会議録画と図版を分けずに探せます。これは検索精度の改善だけでなく、運用コストの削減にもつながります。

Googleは100以上の言語の意味を扱えると案内しています。多言語環境では、翻訳を前段に挟むほど誤差が増えます。意味空間に直接入れられるなら、言語の違いをまたいだ検索設計がしやすくなります。

仕様上のポイント

このモデルはGemini APIとVertex AIで利用できます。公開プレビューなので、まずは実験と評価に向いています。仕様面では、テキストは最大8192トークン、画像は1リクエストあたり最大6枚、動画は最大120秒、PDFは最大6ページを扱えます。音声は文字起こしを挟まず、そのまま埋め込みます。

もう1つの特徴が、Matryoshka Representation Learningです。これは、同じ表現を段階的に圧縮できる仕組みです。Googleはデフォルト3072次元から、1536、768などに縮めて使えると案内しています。要するに、検索品質とストレージコストのバランスを調整しやすい設計です。巨大なベクトルをそのまま持つより、用途ごとに次元を落とせるほうが実運用では扱いやすいです。

どう使うべきか

最初に試すべき用途は、既存のテキストRAGの置き換えではなく、マルチモーダルな検索です。具体的には、以下のようなケースが向いています。

画像付きの問い合わせ検索
音声メモと議事録の横断検索
動画マニュアルからの類似シーン検索
PDF、図表、説明文をまたぐナレッジ検索

既存の埋め込みモデルと比べると、導入時に見るべき指標も変わります。テキスト検索の精度だけでは不十分です。画像を含むクエリ、音声入りの資料、短い動画クリップで、正しい文脈が返るかを確認する必要があります。RAGの評価も、単純な正解率だけでは足りません。媒体をまたいだ関連性が取れているかを見てください。

注意点

公開プレビューのモデルは、すぐ本番全面投入する前に検証が必要です。まずは既存パイプラインの一部を差し替え、検索結果の再現性を確認するのが安全です。特に、動画や音声を含むユースケースでは、データの長さや品質で挙動が変わります。

また、マルチモーダル化は万能ではありません。検索対象を増やすほど、インデックス設計と評価設計は複雑になります。入力を何でも入れれば良いわけではなく、実際に探したい情報単位に切ることが重要です。会話の全文、スライド1枚、録画30秒のように、粒度を先に決めるほうが結果は安定します。

既存の埋め込みモデルとの違い

最大の違いは、媒体をまたいだ意味のつながりを最初から前提にしている点です。テキスト専用モデルは、文字情報の近さには強い一方で、画像や音声の文脈を別処理に逃がしがちです。Gemini Embedding 2は、そこを最初から統合します。

この違いは、AIアプリの設計思想にも出ます。これからの検索は「まずテキスト化してから探す」ではなく、「意味をそのまま探す」に寄っていきます。RAG、社内検索、コンテンツ推薦のどれでも、埋め込み層の設計がプロダクト品質を左右します。Gemini Embedding 2は、その前提を更新するモデルです。