電話対応のAIを本番投入するには、音声認識・LLM・音声合成の3つを別々に組み立てる必要があり、コストと遅延が積み上がります。xAIは2026年7月1日、Grok Voice AI Agent Builder(Voice Agent Builder)をベータ公開し、この課題を1つの画面で解く道筋を示しました。
この記事では、公式発表と製品ページの内容をもとに、新機能の位置づけと実務で使えるポイントを整理します。
この記事でわかること
- Voice Agent Builderが何を解決するのか
- 2分構築を支える主な機能(知識ベース、MCP、SIPなど)
- 料金体系とエンタープライズ向けの安全機能
- 従来の3段構成音声スタックとの違い
Voice Agent Builderは何が変わったか
xAIは2026年7月1日、Voice Agent Builderをベータとして公開しました(参考)。ノーコードのWebプラットフォームで、Grok Voice上に本番向けの音声エージェントを設定・運用できます。カスタマーサポート、営業、予約受付、パーソナルアシスタントなど、電話ベースの業務を想定しています。
従来、音声エージェントは音声認識(STT)、言語モデル、音声合成(TTS)の3 APIを別プロバイダーでつなぐ構成が一般的でした。xAIは公式ブログで、各段階の接続ごとにコスト・遅延・障害点が増えると指摘しています。Voice Agent BuilderはGrok Voice向けのスピーチ・トゥ・スピーチ(音声入力から音声出力まで一気通貫)経路を1つのインターフェースにまとめ、電話回線、知識検索、ツール連携、ガードレール、MCP、通話の可観測性を最初から同梱する設計です。
2分でエージェントを立ち上げる仕組み
セットアップは平易な言語で通話の流れを書き、ドキュメント・ツール・ガードレールを添付するだけです。xAIはゼロから動作するエージェントまで約2分で到達できると説明しています。
通話の進め方はプレイブックで定義します。挨拶、問い合わせ対応、クロージングといった段階を文章で書くと、モデルがリアルタイムに推論しながら従います。ブラウザ上でエージェントと会話して動作を確認でき、変更はその場で反映して再テストできます。アカウントごとに無料の電話番号が1つ付与され、最初のテスト通話から本番トラフィックまで使えます。
音声面では80種類以上の内蔵ボイスに加え、約2分の録音からブランド音声をクローンできます。25言語以上に対応し、低品質な電話回線、背景雑音、強いアクセント、途中での話題変更といった実通話の条件を想定してGrok Voiceを訓練したとxAIは述べています。応答はサブ秒レベルを目標に設計されています。
知識ベースとツール連携で「答える」から「動く」へ
エージェントが参照する情報は知識ベースから供給します。プレーンテキスト、Markdown、PDF、Word、PowerPoint、Excel、HTML、JSONなどをアップロードし、通話中に検索して回答に使います。ドキュメントはコレクション単位で整理でき、複数のエージェントでポリシーや製品仕様、手順書を共有できます。社内文書にない内容はWeb検索やX検索で公開情報を取りにいく設定も可能です。
ツール連携では、Gmail、Google Calendar、Outlook、Linear、Notion、OneDriveなどに直接接続できます。予約ラインではカレンダーに予定を入れ、メールで確認を送る。サポートではAPIで注文状況を照会したり返金処理を走らせたりする、といった動きが通話の途中で完結します。
Model Context Protocol(MCP)は、AIが外部ツールやデータソースと標準化された方法でやり取りするための仕組みです。Voice Agent BuilderはカスタムMCPに対応し、社内データベース、CRM、独自API、ワークフローをエージェントから呼び出せます。人間への引き継ぎが必要なときは転送し、タスク完了後に通話を終了する動きも定義できます。各通話は録音・文字起こしされ、どのツールが使われたかも追跡できます。
既存の電話番号を活かすSIPとエンタープライズ機能
新規番号だけでなく、主要なテレフォニープロバイダー経由のSIPで既存番号を接続できます。WebSocket経由で自前クライアントをつなぐ選択肢もあり、2026年初頭に公開されたGrok Voice Agent APIと同じ音声エンジンの上に、今回のBuilderがノーコードの入り口として位置づけられています。
エンタープライズ向けには、設定可能なガードレールでカード番号の読み上げ禁止などの制限を設けられます。SOC 2、HIPAA適格、GDPR準拠を謳っており、コンプライアンス要件のある業務への投入を想定した説明です。
料金は分単位のシンプル課金
料金はエージェントの音声処理が1分あたり0.05ドルです。ボイス料金は別途かからず、プラットフォーム利用料も現時点ではありません。xAIが無料で割り当てる電話番号を使う場合、テレフォニー料金として1分あたり0.01ドルが上乗せされます。xAIは他社製品が認識・推論・合成・プラットフォームを個別に課金する傾向に対し、通話量に掛け算できる少数のメーターに絞ったと説明しています。
ベンチマークと使い始めるときの視点
xAI独自のτ-voice Benchでは、Grok Voice Think Fast 1.0が67.3%、Gemini 3.1 Flash Liveが43.8%、GPT Realtime 1.5が35.3%と掲載されています。ただしこの数値はxAIが実施したベンチマークであり、第三者による独立検証は公表されていません。実際の導入判断では、自社の難しい問い合わせフローでブラウザテストや試験通話を行い、応答品質とツール連携の安定性を確認するのが確実です。
Voice Agent Builderはベータ段階のため、利用可否や機能の拡充は今後変わる可能性があります。それでも、電話・知識・ツール・監査を1か所に集約した点は、音声エージェントをデモから業務フローへ移すハードルを下げる動きとして注目に値します。カスタマーサポートや予約受付の自動化を検討しているチームは、公式ページからエージェントを1本つくり、最も手間のかかる通話パターンで試すのが近道です。