Grok Voice Think Fast 1.0 ベンチ首位・$0.05/分の音声AI

電話対応AIが、ようやく実用に耐えるレベルに達した。xAIが2026年4月23日にリリースした「Grok Voice Think Fast 1.0」は、音声エージェント向けに設計された新フラッグシップモデルだ。

この記事でわかること：

Grok Voice Think Fast 1.0とは

Grok Voice Think Fast 1.0は、カスタマーサポート・電話営業・予約受付・エンタープライズ業務向けのリアルタイム音声エージェントを開発するための基盤モデル。xAI APIを通じて開発者が利用できる形で公開されており、音声プレイグラウンドでの動作確認も可能だ。

「音声チャット」ではなく「業務を完結させる音声エージェント」を目指した設計で、複雑・曖昧・複数ステップのワークフローへの対応を最優先に置いている。

従来の音声AIは、単純な問い合わせへの応答には使えても、業務として成立するレベルに達していなかった。原因はいくつかある。

電話回線の音質や背景ノイズ、話者のなまり・方言への対応が弱く、認識精度が落ちると会話が成立しなくなる。複数ステップの処理（情報収集→確認→外部システム操作→結果通知）を推論しながらリアルタイムで実行することも難しかった。さらに、複雑な処理に時間がかかると応答が遅くなり、自然な通話のリズムが崩れる。

Grok Voice Think Fast 1.0はこれらの課題を設計の中心に置いて開発されている。

最大の特徴は、推論をバックグラウンドで実行しながら通話を継続できる点だ。ユーザーの発話を待ちながら並行してロジックを処理するため、複雑な判断が必要な場面でもレスポンスのレイテンシに影響しない。

この設計により、単純な質問応答だけでなく「情報収集→ツール呼び出し→結果確認→次の案内」といった多段階のワークフローを1回の通話で完結させられる。

25言語以上をネイティブレベルでサポートし、グローバル展開の用途に対応する。telephony（電話回線）品質の音声での認識、背景ノイズ下での聞き取り、話者の割り込みへの対応など、実際の業務環境に近い条件での動作を想定して設計されている。

氏名・住所・電話番号・メールアドレス・口座番号といった構造化データを音声入力で収集する機能を持つ。発話のよどみ（「えーと」「あの」など）や言い直しを自然に処理し、確認・訂正のやり取りも人間と同様に扱える。高精度が求められる業務でのデータ入力ミスを抑えることが狙いだ。

通話中にリアルタイムで外部ツールを呼び出し、情報の取得・更新・操作を行える。後述するStarlinkでの実運用では、28種類のツールを数百のワークフローにわたって使用している。

xAIはGrok Voiceを自社グループのStarlinkに実戦投入しており、電話番号 +1 (888) GO STARLINK での電話販売とカスタマーサポートを担当している。

公表されている実績は以下の通りだ。

単一のエージェントが28種類のツールを使いながら、Starlinkの多言語顧客対応を大部分自律で処理している点は、業務への実用性を示す具体的な根拠になる。

τ-voice Bench（Tau Voice Bench）は、フルデュプレックス音声エージェントの性能を評価するベンチマーク。実際の通話に近いノイズ・なまり・割り込み・ターン交代などの条件下でテストが行われる点が特徴で、理想的な録音環境での評価ではない。

Grok Voice Think Fast 1.0はこのベンチマークで1位を獲得している。

料金は$0.05/分（時間換算で$3/時間）。OpenAI Realtime APIの約半額にあたる水準だ。

API仕様はOpenAI Realtime APIと互換性があり、既存のアプリケーションからの移行コストを抑えられる設計になっている。OpenAI Realtime APIをすでに使用している開発者は、コードの大幅な変更なしに切り替えを試せる。

Grok Voice Think Fast 1.0のリリースは、xAIのビジネス展開という観点でも注目できる。これまでのGrokは主にテキストベースのコンシューマー向けチャットサービスとして認知されていたが、今回のリリースはAPI経由のエンタープライズ向け音声インフラへの参入を意味する。

OpenAI、Google、Anthropicが各自の音声・エージェント機能を強化するなかで、xAIはStarlinkという実運用実績を証拠として持ち込んでいる。ベンチマーク上の数字だけでなく、実際のビジネスプロセスで動いていることを前面に出した戦略だ。

電話ベースの業務をAIエージェントに置き換えることを検討している開発者・企業にとって、Grok Voice Think Fast 1.0は現時点での有力な選択肢のひとつだ。xAI APIのページおよびボイスプレイグラウンドで動作を確認できる。