音声AIエージェントはデモでは完璧に動く。しかし本番に出た途端、空港の騒音、子どもの声、悪い通話品質でまったく機能しなくなる。

2026年5月6日、KrispはVIVA 2.0を発表した。音声AIエージェントが抱えるこの本番崩れ問題を、パイプラインの上流から解決するサーバーサイドSDKだ。

この記事でわかること:

  • 音声AIエージェントが本番で失敗する2つの根本原因
  • VIVA 2.0で追加された5つの機能の仕組み
  • STTの前にVIVAを挟むだけで何が変わるか
  • 既存VIVAユーザーは追加料金なしで使えるか

https://krisp.ai/blog/viva-2-0-ai-infrastructure-for-voice-ai-agents/

音声AIが本番で崩れる2つの原因

音声AIエージェントの失敗は、だいたい同じパターンで起きる。

一つ目は音声品質の問題だ。リアルの通話には背景ノイズ、他者の声、部屋のエコー、コーデック劣化がある。これにより音声認識(STT)の単語誤り率は理想的な環境の約5%から、本番では15〜30%以上まで悪化する。「木曜日のフライトをキャンセルしたい」が「最初の日のフライトをキャンセルしたい」と認識されれば、その後のLLMの応答もすべて狂う。

二つ目は会話の制御問題だ。ほとんどのエージェントは「沈黙が続いたら話す」という単純なルールで動いている。しかし人間の会話は無音を待たずに終わりを予測し、「うん」「はい」が相づちなのか割り込みなのかを瞬時に判断する。この仕組みがないと、エージェントは話の途中で遮ったり、相づちで止まったりを繰り返す。

Krispは8年間、月間10億分超の実際の音声トラフィックをこの課題に費やしてきた。VIVA 2.0はその集大成として登場した。

VIVA 2.0で何が変わったか

VIVA 2.0はSTTの手前に置くサーバーサイドSDKで、GPUは不要、モデルサイズは30MB以下、アルゴリズム遅延は15msで動作する。既存のVIVAユーザーは追加料金なしで新機能を利用できる。

Voice Isolation v3:STTに渡す音声を根本から浄化する

音声隔離エンジンをフルスクラッチで作り直した。話者の声だけを抽出し、背景音・他者の声・エコーをすべて除去してSTTパイプラインに渡す。すべての言語とアクセントに対応しており、これが以降のすべての機能の土台になる。

Turn Prediction v3:いつ話すかを予測する

従来の沈黙検知とは根本的に異なる。発話の抑揚やリズムからターンの終わりを予測し、200ms以内で反応できる。v2と比べて同じ偽陽性率のまま200ms以内の真のターン終了検知が47%増加した。12以上の言語に対応し、音声のみで動くため文字起こし不要だ。

SmartTurn v3.2、Deepgram Flux、LiveKitとの比較でも、均衡精度とAUCでトップの数値(均衡精度88.05、AUC 94.58)を記録している。

Interruption Prediction v1:いつ止まるかを判断する

これが今回最大の新機能だ。「うん」「そうですね」のような相づちと、本当の割り込み意図を音声だけで区別する業界初のモデルとなる。

従来の方式は単純な音声活動検知(VAD)を使っており、相づちの66%を割り込みと誤検知する。Interruption Prediction v1は推奨閾値0.4での偽陽性率が6%未満で、1秒以内に判断できる。笑い声や咳、くしゃみなど非言語音への誤作動も5%未満に抑えている。

Turn Prediction(沈黙を読む)とInterruption Prediction(発話を読む)は表裏一体で、この2つが揃って初めて会話の流れを完全に制御できる。

Signal Detectors:話者属性をリアルタイムに把握する

  • TTS Detector:合成音声か人間の声かをリアルタイムで判定
  • Gender Detector:音声から話者の性別を識別
  • Accent Detector:アクセントの種類を識別

これにより、エージェントは相手の属性に合わせた応答調整が可能になる。

Voice Activity Detection(VAD):すべての起点

誰かが話しているかどうかを検知するゲートキーパー。誤検知を減らし、後続の全モデルの精度を底上げする。

パイプラインへの組み込み方

組み込みは3ステップで完結する。

  1. 通話者からの生音声(WebRTC、SIP、PSTNなど)をVIVAに入力する
  2. VIVAが音声隔離・ターン予測・割り込み予測・信号検出をリアルタイムで処理する
  3. クリーンな音声と会話シグナルがSTT・LLM・TTSパイプラインに渡される

既存のSTTパイプラインがあれば、その前段にVIVAを挿入するだけだ。

導入実績と効果

VIVA SDKはすでにVapi、LiveKit、Telnyx、Ultravox、Daily、Vodexなど130以上の音声AIプロダクトに組み込まれている。導入実績として、ターン精度3.5倍向上、通話切断50%減少、顧客満足スコア30%向上という数字が示されている(参考)。

Telnyx CEOのDavid Casem氏は「音声AIの最大の課題はモデルではなく、モデルに入力されるシグナルの品質だ。Krispはそれを上流で解決する」と述べており(参考)、エージェント構築の視点でも評価は高い。

まとめ

VIVA 2.0は音声AIエージェントの本番課題を、アプリケーション層ではなく音声パイプラインの上流で解く。STT前段への15ms遅延での挿入、GPU不要、既存ユーザーへの追加料金なし、という条件は導入のハードルを下げる。

Vapi、LiveKit、Twilioなど主要フレームワークとの統合済み環境で開発している場合、VIVA 2.0は即座に試せる選択肢になる。