今まで、AIの音声読み上げは「ロボット的」「感情が薄い」という不満が多くありました。2026年4月15日、Googleはその課題を解決する新しい音声合成モデル「Gemini 3.1 Flash TTS」を正式リリースしました。

この記事でわかること:

  • Gemini 3.1 Flash TTSで何ができるか
  • 200種以上の音声タグ(Audio Tags)の概要と使い方
  • 開発者向けのAPI利用方法

従来の音声合成の限界

これまでのAI音声合成は、感情表現や話し方の細かな制御が困難でした。「もっと明るく読み上げてほしい」「ここは囁くような声で」といった指示を、従来のモデルは受け付けませんでした。結果として、生成された音声は単調で、コンテンツの雰囲気に合わせにくいという課題がありました。

Gemini 3.1 Flash TTSで何が変わったか

最大の変更点は「Audio Tags(音声タグ)」の導入です。テキスト内に感情や話し方を指定するタグを埋め込むことで、音声の表現を細かくコントロールできます。

対応タグは200種類以上。代表的なものは以下の通りです。

  • [enthusiasm](熱意)
  • [nervousness](緊張)
  • [whispers](囁き)
  • [laughs](笑い)
  • [determination](決意)
  • [curiosity](好奇心)
  • [frustration](苛立ち)
  • [awe](畏敬)

例えば、プレゼン原稿の冒頭に [enthusiasm] を付けると、前向きなトーンで読み上げます。物語の緊張場面では [tension][nervousness] を使い、場の雰囲気を音声で表現できます。

70以上の言語・多彩なアクセントに対応

Gemini 3.1 Flash TTSは70以上の言語に対応しています。英語ではアクセントも細かく選べます。

  • アメリカ南部訛り
  • バレー発音(カリフォルニア)
  • RP(伝統的イギリス英語)
  • ブリクストン(南ロンドン)
  • トランスアトランティック(米英折衷)

コンテンツのターゲット地域に合わせた音声を選べるため、語学アプリや教育コンテンツ制作に役立ちます。

用途別テンプレートを搭載

音声タグを1から組み合わせなくても、用途に合わせたテンプレートが用意されています。

テンプレート 向いているコンテンツ
ポッドキャスト トーク形式の解説
オーディオブック 小説・書籍の朗読
言語チューター 学習用の発音練習
ニュースキャスター ニュース読み上げ
ウェルネスガイド 瞑想・健康系アプリ
サポートエージェント カスタマー対応bot

テンプレートの設定はAPIコードとしてエクスポートできるため、そのまま自分のプロダクトに組み込めます。

性能指標:Elo 1,211 を達成

Artificial Analysis TTSリーダーボードでEloスコア1,211を獲得しました。音声品質のベンチマークとして業界で広く参照されている指標で、多くの競合モデルを上回っています。「高品質と低コストのバランス」を公式が強調している点も、実務利用での採用しやすさにつながります。

利用方法

開発者はモデルID gemini-3.1-flash-tts-preview でGemini APIから呼び出せます。入力トークン上限は8,192、出力トークン上限は16,384です。

Google AI Studioからコーディング不要で試すこともできます。タグの効果を確認しながらAPIコードをエクスポートできるため、プロトタイプから本番実装へのステップが短縮されます。

エンタープライズ向けはVertex AI、一般ユーザーはGoogle Vidsから利用できます。

SynthIDによるAI生成コンテンツの識別

生成された音声にはすべて「SynthID」ウォーターマークが埋め込まれます。聴いても気づかない形で、AI生成であることを識別できる仕組みです。フェイク音声の悪用を防ぐ安全機能として機能します。

まとめ

Gemini 3.1 Flash TTSは、「ただ読み上げるだけ」のTTSから「感情・口調・アクセントを指定できる」TTSへと音声合成の水準を引き上げました。200種以上の音声タグと用途別テンプレートにより、ポッドキャストから語学アプリまで幅広い用途に対応します。

Google AI StudioのプレビューモデルとしてAPIからすぐに試せます。音声コンテンツを扱う開発者は触れておく価値があるモデルです。