今まで、AIの音声読み上げは「ロボット的」「感情が薄い」という不満が多くありました。2026年4月15日、Googleはその課題を解決する新しい音声合成モデル「Gemini 3.1 Flash TTS」を正式リリースしました。
この記事でわかること:
- Gemini 3.1 Flash TTSで何ができるか
- 200種以上の音声タグ(Audio Tags)の概要と使い方
- 開発者向けのAPI利用方法
従来の音声合成の限界
これまでのAI音声合成は、感情表現や話し方の細かな制御が困難でした。「もっと明るく読み上げてほしい」「ここは囁くような声で」といった指示を、従来のモデルは受け付けませんでした。結果として、生成された音声は単調で、コンテンツの雰囲気に合わせにくいという課題がありました。
Gemini 3.1 Flash TTSで何が変わったか
最大の変更点は「Audio Tags(音声タグ)」の導入です。テキスト内に感情や話し方を指定するタグを埋め込むことで、音声の表現を細かくコントロールできます。
対応タグは200種類以上。代表的なものは以下の通りです。
[enthusiasm](熱意)[nervousness](緊張)[whispers](囁き)[laughs](笑い)[determination](決意)[curiosity](好奇心)[frustration](苛立ち)[awe](畏敬)
例えば、プレゼン原稿の冒頭に [enthusiasm] を付けると、前向きなトーンで読み上げます。物語の緊張場面では [tension] や [nervousness] を使い、場の雰囲気を音声で表現できます。
70以上の言語・多彩なアクセントに対応
Gemini 3.1 Flash TTSは70以上の言語に対応しています。英語ではアクセントも細かく選べます。
- アメリカ南部訛り
- バレー発音(カリフォルニア)
- RP(伝統的イギリス英語)
- ブリクストン(南ロンドン)
- トランスアトランティック(米英折衷)
コンテンツのターゲット地域に合わせた音声を選べるため、語学アプリや教育コンテンツ制作に役立ちます。
用途別テンプレートを搭載
音声タグを1から組み合わせなくても、用途に合わせたテンプレートが用意されています。
| テンプレート | 向いているコンテンツ |
|---|---|
| ポッドキャスト | トーク形式の解説 |
| オーディオブック | 小説・書籍の朗読 |
| 言語チューター | 学習用の発音練習 |
| ニュースキャスター | ニュース読み上げ |
| ウェルネスガイド | 瞑想・健康系アプリ |
| サポートエージェント | カスタマー対応bot |
テンプレートの設定はAPIコードとしてエクスポートできるため、そのまま自分のプロダクトに組み込めます。
性能指標:Elo 1,211 を達成
Artificial Analysis TTSリーダーボードでEloスコア1,211を獲得しました。音声品質のベンチマークとして業界で広く参照されている指標で、多くの競合モデルを上回っています。「高品質と低コストのバランス」を公式が強調している点も、実務利用での採用しやすさにつながります。
利用方法
開発者はモデルID gemini-3.1-flash-tts-preview でGemini APIから呼び出せます。入力トークン上限は8,192、出力トークン上限は16,384です。
Google AI Studioからコーディング不要で試すこともできます。タグの効果を確認しながらAPIコードをエクスポートできるため、プロトタイプから本番実装へのステップが短縮されます。
エンタープライズ向けはVertex AI、一般ユーザーはGoogle Vidsから利用できます。
SynthIDによるAI生成コンテンツの識別
生成された音声にはすべて「SynthID」ウォーターマークが埋め込まれます。聴いても気づかない形で、AI生成であることを識別できる仕組みです。フェイク音声の悪用を防ぐ安全機能として機能します。
まとめ
Gemini 3.1 Flash TTSは、「ただ読み上げるだけ」のTTSから「感情・口調・アクセントを指定できる」TTSへと音声合成の水準を引き上げました。200種以上の音声タグと用途別テンプレートにより、ポッドキャストから語学アプリまで幅広い用途に対応します。
Google AI StudioのプレビューモデルとしてAPIからすぐに試せます。音声コンテンツを扱う開発者は触れておく価値があるモデルです。
