電話対応AIが、ようやく実用に耐えるレベルに達した。xAIが2026年4月23日にリリースした「Grok Voice Think Fast 1.0」は、音声エージェント向けに設計された新フラッグシップモデルだ。
この記事でわかること:
- τ-voice Benchで業界1位を獲得した実力
- レスポンスを遅らせないリアルタイム背景推論の仕組み
- Starlinkでの実運用データ(転換率20%・自動解決率70%)
- $0.05/分という価格とOpenAI Realtime APIとの比較
Grok Voice Think Fast 1.0とは
Grok Voice Think Fast 1.0は、カスタマーサポート・電話営業・予約受付・エンタープライズ業務向けのリアルタイム音声エージェントを開発するための基盤モデル。xAI APIを通じて開発者が利用できる形で公開されており、音声プレイグラウンドでの動作確認も可能だ。
「音声チャット」ではなく「業務を完結させる音声エージェント」を目指した設計で、複雑・曖昧・複数ステップのワークフローへの対応を最優先に置いている。
なぜ今まで音声エージェントは使いにくかったのか
従来の音声AIは、単純な問い合わせへの応答には使えても、業務として成立するレベルに達していなかった。原因はいくつかある。
電話回線の音質や背景ノイズ、話者のなまり・方言への対応が弱く、認識精度が落ちると会話が成立しなくなる。複数ステップの処理(情報収集→確認→外部システム操作→結果通知)を推論しながらリアルタイムで実行することも難しかった。さらに、複雑な処理に時間がかかると応答が遅くなり、自然な通話のリズムが崩れる。
Grok Voice Think Fast 1.0はこれらの課題を設計の中心に置いて開発されている。
主な機能
リアルタイム背景推論
最大の特徴は、推論をバックグラウンドで実行しながら通話を継続できる点だ。ユーザーの発話を待ちながら並行してロジックを処理するため、複雑な判断が必要な場面でもレスポンスのレイテンシに影響しない。
この設計により、単純な質問応答だけでなく「情報収集→ツール呼び出し→結果確認→次の案内」といった多段階のワークフローを1回の通話で完結させられる。
25言語以上のネイティブサポート
25言語以上をネイティブレベルでサポートし、グローバル展開の用途に対応する。telephony(電話回線)品質の音声での認識、背景ノイズ下での聞き取り、話者の割り込みへの対応など、実際の業務環境に近い条件での動作を想定して設計されている。
構造化データの音声収集
氏名・住所・電話番号・メールアドレス・口座番号といった構造化データを音声入力で収集する機能を持つ。発話のよどみ(「えーと」「あの」など)や言い直しを自然に処理し、確認・訂正のやり取りも人間と同様に扱える。高精度が求められる業務でのデータ入力ミスを抑えることが狙いだ。
ツール呼び出し
通話中にリアルタイムで外部ツールを呼び出し、情報の取得・更新・操作を行える。後述するStarlinkでの実運用では、28種類のツールを数百のワークフローにわたって使用している。
Starlinkでの実運用データ
xAIはGrok Voiceを自社グループのStarlinkに実戦投入しており、電話番号 +1 (888) GO STARLINK での電話販売とカスタマーサポートを担当している。
公表されている実績は以下の通りだ。
- 販売転換率: 20% — 電話での問い合わせ5件に1件が成約
- 自動解決率: 70% — カスタマーサポートの問い合わせの大多数を人手なしで完結
- 使用ツール数: 28種類 — 数百のサポート・セールスワークフローに対応
- ハードウェアトラブルシューティング、機器交換手配、サービスクレジット付与も自律実行
単一のエージェントが28種類のツールを使いながら、Starlinkの多言語顧客対応を大部分自律で処理している点は、業務への実用性を示す具体的な根拠になる。
ベンチマーク: τ-voice Bench 1位
τ-voice Bench(Tau Voice Bench)は、フルデュプレックス音声エージェントの性能を評価するベンチマーク。実際の通話に近いノイズ・なまり・割り込み・ターン交代などの条件下でテストが行われる点が特徴で、理想的な録音環境での評価ではない。
Grok Voice Think Fast 1.0はこのベンチマークで1位を獲得している。
料金と互換性
料金は$0.05/分(時間換算で$3/時間)。OpenAI Realtime APIの約半額にあたる水準だ。
API仕様はOpenAI Realtime APIと互換性があり、既存のアプリケーションからの移行コストを抑えられる設計になっている。OpenAI Realtime APIをすでに使用している開発者は、コードの大幅な変更なしに切り替えを試せる。
音声エージェント市場における位置づけ
Grok Voice Think Fast 1.0のリリースは、xAIのビジネス展開という観点でも注目できる。これまでのGrokは主にテキストベースのコンシューマー向けチャットサービスとして認知されていたが、今回のリリースはAPI経由のエンタープライズ向け音声インフラへの参入を意味する。
OpenAI、Google、Anthropicが各自の音声・エージェント機能を強化するなかで、xAIはStarlinkという実運用実績を証拠として持ち込んでいる。ベンチマーク上の数字だけでなく、実際のビジネスプロセスで動いていることを前面に出した戦略だ。
電話ベースの業務をAIエージェントに置き換えることを検討している開発者・企業にとって、Grok Voice Think Fast 1.0は現時点での有力な選択肢のひとつだ。xAI APIのページおよびボイスプレイグラウンドで動作を確認できる。
