言葉が違っても、会話のテンポを崩さず翻訳が聞こえる仕組みが、Googleの製品全体に広がり始めました。
Googleは2026年6月9日、ライブ音声翻訳向けの最新オーディオモデル「Gemini 3.5 Live Translate」の提供を開始したと発表しました。話し手の声の特徴を保ったまま、70以上の言語をほぼリアルタイムで訳すモデルです。
この記事では、新モデルの技術的な特徴と、Google Translate・Google Meet・開発者向けAPIへの展開内容を整理します。
- Gemini 3.5 Live Translateが従来の音声翻訳とどう違うか
- Google MeetとTranslateアプリで何が変わるか
- 開発者と企業がいつから使えるか
話しながら訳す「連続生成」が核心
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
多くの音声翻訳は、話者が一文を終えるまで待ってから訳す方式です。Gemini 3.5 Live Translateは、話の途中でも翻訳音声を連続して出力します。
Googleによると、このモデルは70以上の言語を自動検出し、話し手のイントネーション(声の高低)・話す速度・ピッチを保ったまま訳音を生成します。文脈を待てば精度は上がりますが、待ちすぎると会話から遅れます。3.5 Live Translateはこのバランスを調整し、セッション中は話者の数秒後ろを保ちながら訳すと説明されています。不自然な間が入りにくく、通訳に近い聞こえ方を目指した設計です。
Googleの翻訳研究が音声モデルに結実
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
Googleは翻訳機能を20年前の機械学習実験から育ててきました。公式ブログでは、月間に数兆語が数十億ユーザーの手元で訳されていると紹介されています。
Gemini 3.5 Live Translateは、その延長線上にある音声モデルです。ノイズへの耐性も高く、騒がしい現場でも使える想定で設計されているとしています。多言語の入力を手動設定なしで扱える点も、会議や現場での実用性を高めるポイントです。
Google Meetは5言語から70言語超へ
Google Meetの音声翻訳は、これまで5言語に限定されていました。さらに、英語との往復翻訳が中心で、他言語同士の組み合わせはほぼありませんでした。
3.5 Live Translate導入後は70言語超に拡大し、1つの会議内で2000以上の言語組み合わせが使える見込みです。Web版では、操作バーに音声翻訳をすぐ起動できるボタンも追加されます。
展開は段階的です。2026年6月から、選ばれたビジネス向けGoogle Workspace顧客向けにプライベートプレビューが始まり、年内にもっと広いユーザーへ広がる予定です。国際会議や多国籍チームの打ち合わせで、英語を介さず直接話せる場面が増える可能性があります。
Translateアプリはグローバルで順次配信
一般ユーザー向けには、AndroidとiOSのGoogle Translateアプリへ順次配信されています。画面左下の「Live translate」から使います。
ヘッドフォンを接続すれば、70言語超の会話を相手の声のトーンに近い訳音で聞けます。Androidでは新しい「listening mode(リスニングモード)」も追加されます。スマホを耳に当てるように持てば、イヤピースから訳音が届きます。周囲に聞かれたくない場面で、ヘッドフォンなしでも短時間の翻訳を聞ける用途を想定しています。旅行先での案内放送や、店頭でのやり取りなど、手軽に試せる入口になります。
開発者向けAPIとGrabでの実用例
https://ai.google.dev/gemini-api/docs/live-api/live-translate
開発者はGemini Live APIとGoogle AI Studio経由で、公開プレビューとして利用できます。モデル名は gemini-3.5-live-translate-preview です。訳先言語は targetLanguageCode で指定し、入力がすでに訳先言語のときの扱いは echoTargetLanguage で制御します。音声のみの入出力で、入力16kHz・出力24kHzに対応しています。
Agora、LiveKit、Pipecatなどのプラットフォームが統合を進めており、アプリへの組み込みが容易になります。東南アジアの配車サービスGrabは、ドライバーと利用者の間の月間1000万回超の音声通話に、このモデルのテストを進めています。乗車時の言語の壁を、通話のまま越える実証が進んでいます。
SynthIDで生成音声を識別可能に
AIが生成した音声には、すべてSynthIDという目に見えない透かしが入ります。出力音声そのものに織り込まれるため、偽情報対策の一環として検出可能にする仕組みです。翻訳の便利さと、生成コンテンツの透明性を両立させる設計になっています。