音声AIエージェントの「遅延」が、開発者にとって長年の課題でした。従来のアーキテクチャでは音声認識・テキスト生成・音声合成の3段階を経るため、レスポンスが遅れ、会話の自然さが失われます。Googleが2026年3月26日にリリースしたGemini 3.1 Flash Liveは、音声入力から音声出力までを1つのモデルで処理し、1秒未満の応答速度を実現しました。

この記事でわかること

  • Gemini 3.1 Flash Liveが従来の音声AIパイプラインと何が違うのか
  • ベンチマークで示された精度と信頼性
  • Live APIの技術仕様と90言語以上の多言語対応
  • 料金体系と開発の始め方

従来の音声AIパイプラインが抱えていた問題

これまでのリアルタイム音声エージェントは、ASR(自動音声認識)でテキストに変換し、LLMで応答を生成し、TTS(音声合成)で読み上げるという多段構成が一般的でした。各段階でレイテンシが積み重なり、合計で数秒の遅延が発生します。さらに、音声認識の誤りがそのまま後続の処理に伝播するため、騒音環境での精度低下も避けられませんでした。

もう1つの問題は、話者のトーンや感情が途中で失われることです。テキストに変換した時点でピッチやペースの情報は消え、応答の音声合成も一律のトーンになりがちでした。

1つのAPIコールで音声を処理する仕組み

Gemini 3.1 Flash Liveは、音声入力を直接受け取り、テキスト変換を介さずに音声で応答します。Googleはこの方式を「ネイティブオーディオ」と呼んでいます。ASR→LLM→TTSの3モデル構成を1つのモデルに集約した結果、Time-to-First-Token(最初の応答トークンが返るまでの時間)は960ミリ秒です。

通信にはWebSocketの双方向ストリームを使います。セッション中はコネクションが維持され、音声・映像・テキストの入力をリアルタイムに受け付けます。ユーザーがモデルの発話中に割り込む「バージイン」にも対応しており、人間同士の会話に近いやりとりが可能です。

入力はraw 16-bit PCMオーディオ(16kHz)、画像(JPEG、1FPS以下)、テキストに対応し、出力はraw 16-bit PCMオーディオ(24kHz)です。入力トークン上限は131,072、出力トークン上限は65,536となっています。

ベンチマークで見る精度と信頼性

複数ステップの関数呼び出しを評価するComplexFuncBench Audioでは、90.8%のスコアを記録しました。音声でのタスク完了精度としては現行モデルの中で最高水準です。

Scale AIが運営するAudio MultiChallengeでは、Thinking機能を有効にした状態で36.1%を達成しています。このベンチマークは、実際の会話で起きる言い淀みや割り込みの中で複雑な指示に従えるかを測定するもので、実運用に近い条件での評価です。

Googleによると、前モデルの2.5 Flash Native Audioと比較して、騒音環境でのツール呼び出し成功率が向上し、複雑なシステム指示への準拠も改善されています。

90言語以上の多言語対応

3.1 Flash Liveは90以上の言語でリアルタイム会話に対応します。同一セッション内での言語切り替えも可能で、多言語カスタマーサポートや語学学習ツールの構築に適しています。

この多言語対応を活かし、GoogleはSearch Liveを200以上の国と地域に展開しました。ユーザーは自分の言語でリアルタイムに検索結果と対話できます。

料金体系

Gemini 3.1 Flash Liveの料金は以下の通りです。

  • テキスト入力: 100万トークンあたり0.75ドル
  • 音声入力: 100万トークンあたり3.00ドル
  • 出力: 100万トークンあたり4.50ドル

音声入力はテキスト入力の4倍のコストですが、従来のASR+LLM+TTSの3サービス分の料金を合算すると、単一APIで処理するほうが安くなるケースが多いです。

開発の始め方

現在プレビュー版として公開されており、Google AI StudioまたはGemini APIから利用できます。モデルIDはgemini-3.1-flash-live-previewです。

Google GenAI SDKを使えば、PythonまたはJavaScriptからWebSocket接続を確立し、音声ストリームの送受信を数十行のコードで実装できます。WebRTCでのスケーリングが必要な場合は、LiveKit、Pipecat(Daily)、Agora、Voximplantなどのパートナー統合も用意されています。

Thinking機能の設定はthinkingLevelで制御します。minimal(デフォルト)は最低遅延向け、lowmediumhighと上げるほど推論精度が向上しますが、レイテンシも増加します。

2.5 Flash Native Audioからの移行

既存のGemini 2.5 Flash Native Audioユーザーが3.1 Flash Liveへ移行する際は、いくつかの変更点があります。

モデルIDの変更に加え、Thinking設定がthinkingBudgetからthinkingLevelに変わりました。また、サーバーイベントが1つのレスポンスに複数のコンテンツパート(音声チャンクとトランスクリプト)を含むようになったため、すべてのパートを処理するようコードを更新する必要があります。

非同期の関数呼び出しは3.1 Flash Liveでは未対応です。関数呼び出しは同期のみで、ツールのレスポンスを返すまでモデルは応答を開始しません。

音声AIの開発基盤が一段階上がった

Gemini 3.1 Flash Liveは、音声エージェント開発の構成をシンプルにしました。3つのモデルを組み合わせる必要がなくなり、遅延・精度・多言語対応のすべてが1つのAPIで手に入ります。VerizonやThe Home Depotといった企業もすでにワークフローに組み込んでおり、プロダクション環境での採用が進んでいます。音声ファーストのAIアプリケーションを検討しているなら、最初に試すべき選択肢です。