きれいなベンチマークでは高精度でも、実際の顧客通話では文字起こしが崩れてしまう——音声認識のこの壁に、Gladiaが新モデルで正面から向き合いました。

この記事では、2026年6月に公開されたGladiaの音声認識モデル「Solaria-3」が、どの課題を狙って設計されたのか、ベンチマーク結果と既存モデルとの使い分けを整理します。

この記事でわかること

  • 実運用の音声で文字起こし精度が落ちる主な要因
  • Solaria-3の設計方針と対応言語
  • 主要ベンチマークでの数値と競合との差
  • Solaria-1との使い分けとAPIでの利用方法

ベンチマークと実運用の間にある溝

音声認識の精度は、WER(Word Error Rate、単語誤り率)で測ります。数値が低いほど正確です。LibriSpeechのような公開ベンチマークでは、多くのモデルが4%未満のWERを記録します。

一方、Gladiaの公式ブログでは、同じモデルが「非母語話者の営業通話に雑音が乗った音声」では15%を超えるWERになる例が挙げられています(参考)。ベンチマークの数値が間違っているわけではなく、計測対象の音声が違うのです。

データサイエンティストのCharly Wargnier氏も、X上でこの問題を指摘しています。きれいな条件では優秀なモデルでも、背景雑音・訛り・早口・話者の重なりが入ると出力が実用レベルを下回ることがある、と述べたうえでGladiaのSolaria-3開発を紹介しています(参考)。

コールセンターの録音、商談の音声、現場取材——こうした「生の音声」は、スタジオ収録の朗読データとは性質がまったく異なります。会議の文字起こしやカスタマーコール解析を組み立てるなら、この差を前提にモデルを選ぶ必要があります。

Solaria-3は何を変えたのか

2026年6月10日、フランス・パリのAI音声インフラ企業Gladiaは、音声認識モデル「Solaria-3」を公開しました。対象はビジネス現場の音声で、背景雑音、話者の重なり、アクセントの強い発話、会議内の言語切り替えを想定して学習されています。

対応言語は英語・フランス語・ドイツ語・スペイン語・イタリア語の5言語に絞られています。100言語以上を扱う前モデル「Solaria-1」と比べ、欧州の実運用音声に特化した設計です。

Gladiaは公開ベンチマークと、人間が注釈した実顧客録音の内部データセットの両方で評価を行いました。比較対象にはAssemblyAI、ElevenLabs、Deepgram、Mistral、Speechmaticsが含まれます。

ベンチマークで確認できる強み

Gladiaの公開ページに掲載された主な数値は次のとおりです(参考)。

実顧客の英語録音(Gladia内部データセット)

Solaria-3は9.6% WERで1位。ElevenLabs Scribe v2(9.9%)、AssemblyAI(10.0%)、Deepgram Nova-3(10.7%)を上回り、Solaria-1(12.9%)より26%改善しています。

Earnings22(金融・ビジネス会話)

Solaria-3は6.4% WERで1位。7%未満はこのモデルだけで、AssemblyAI(6.9%)、ElevenLabs(7.7%)、Deepgram(12.0%)を上回ります。

Switchboard(劣化した8kHz電話音声)

Solaria-3は33.9% WERで1位。比較対象のなかで35%未満に収まったのはこのモデルのみです。ElevenLabsは55.2% WERに達しており、コールセンター向け音声との相性差が大きく出ています。

雑音入り音声

Solaria-3は1.4% WERで2位。1位はMistral Voxtral(1.0%)です。

言語別では、実顧客録音ベースで英語が26%改善、フランス語18%、イタリア語10%、スペイン語9%、ドイツ語3%の改善となっています。

実運用で起きる失敗パターン

Gladiaの検証例では、劣化した電話音声で他社モデルが話されていない語句を生成する「幻覚(ハルシネーション)」が確認されています。Switchboardの短い発話「yeah not not even that much probably yeah」に対し、AssemblyAIやElevenLabsは「Well, that would be—」のような存在しない語句を挿入したと報告されています(参考)。

重い雑音が乗った音声では、ElevenLabsが103.4% WERに達し、実際の発話数を超える語句を出力した例も公開されています。文字起こしの誤りは、要約や感情分析、CRM連携といった下流処理の品質をまとめて下げます。幻覚は一見もっともらしいため、人手チェックなしでは検知しにくい点も問題です。

Solaria-1との使い分け

Solaria-3は万能モデルではありません。Gladia自身が、次の場面ではSolaria-1を推奨しています。

  • きれいな朗読音声やフォーマルな議会演説(VoxPopuliでSolaria-3は2.9%対Solaria-1の2.2%)
  • 100言語以上の広い言語カバレッジ(Solaria-1は42言語が他API非対応)
  • リアルタイムストリーミング(Solaria-3は現時点で非同期のみ、Solaria-1は103ms未満のパーシャル出力に対応)

Multilingual LibriSpeechではSolaria-3が8.0% WER、Solaria-1が5.9% WERと、きれいな朗読ベンチマークではSolaria-1が36%優位です。Gladiaはこの後退も公開しており、「実運用の欧州音声ならSolaria-3、言語の幅ときれいな音声ならSolaria-1」という二刀流を打ち出しています。

料金とAPIでの使い方

Solaria-3はGladia API経由で利用できます。プロモーションコード「TRY-SOLARIA-3」で、非同期文字起こしを無料トライアルできます(2026年6月21日まで、1アカウント1回)。トライアル後は通常のAPI料金が適用されます。

APIリクエストではmodelパラメータにsolaria-3を指定します。詳細はGladiaのドキュメント(docs.gladia.io)を参照してください。

GladiaはGDPR、SOC 2 Type 2、HIPAA、ISO 27001に対応し、EUデータレジデンシーと有料プランでのゼロデータ保持を提供しています。

選定のポイント

音声認識モデルを選ぶときは、公開ベンチマークの平均値だけを見ないことが重要です。自社の録音条件——電話品質、話者数、アクセント、業界用語——に近いデータでWERを測る必要があります。Gladiaのブログでも、ベンダー独自のテストセットではなく本番音声での評価を推奨しています(参考)。

欧州5言語のビジネス通話やコールセンター録音が主戦場なら、Solaria-3は有力な候補です。Rare言語やリアルタイム応答が必要なら、Solaria-1の併用を検討するのが現実的です。ベンチマークの数字と実運用のギャップを意識した選定が、文字起こし基盤の品質を左右します。