xAIの音声エージェント構築、2分で本番運用まで

電話対応のAIを本番投入するには、音声認識・LLM・音声合成の3つを別々に組み立てる必要があり、コストと遅延が積み上がります。xAIは2026年7月1日、Grok Voice AI Agent Builder（Voice Agent Builder）をベータ公開し、この課題を1つの画面で解く道筋を示しました。

この記事では、公式発表と製品ページの内容をもとに、新機能の位置づけと実務で使えるポイントを整理します。

この記事でわかること

Voice Agent Builderが何を解決するのか
2分構築を支える主な機能（知識ベース、MCP、SIPなど）
料金体系とエンタープライズ向けの安全機能
従来の3段構成音声スタックとの違い

https://x.ai/voice

Voice Agent Builderは何が変わったか

xAIは2026年7月1日、Voice Agent Builderをベータとして公開しました（参考）。ノーコードのWebプラットフォームで、Grok Voice上に本番向けの音声エージェントを設定・運用できます。カスタマーサポート、営業、予約受付、パーソナルアシスタントなど、電話ベースの業務を想定しています。

従来、音声エージェントは音声認識（STT）、言語モデル、音声合成（TTS）の3 APIを別プロバイダーでつなぐ構成が一般的でした。xAIは公式ブログで、各段階の接続ごとにコスト・遅延・障害点が増えると指摘しています。Voice Agent BuilderはGrok Voice向けのスピーチ・トゥ・スピーチ（音声入力から音声出力まで一気通貫）経路を1つのインターフェースにまとめ、電話回線、知識検索、ツール連携、ガードレール、MCP、通話の可観測性を最初から同梱する設計です。

2分でエージェントを立ち上げる仕組み

セットアップは平易な言語で通話の流れを書き、ドキュメント・ツール・ガードレールを添付するだけです。xAIはゼロから動作するエージェントまで約2分で到達できると説明しています。

通話の進め方はプレイブックで定義します。挨拶、問い合わせ対応、クロージングといった段階を文章で書くと、モデルがリアルタイムに推論しながら従います。ブラウザ上でエージェントと会話して動作を確認でき、変更はその場で反映して再テストできます。アカウントごとに無料の電話番号が1つ付与され、最初のテスト通話から本番トラフィックまで使えます。

音声面では80種類以上の内蔵ボイスに加え、約2分の録音からブランド音声をクローンできます。25言語以上に対応し、低品質な電話回線、背景雑音、強いアクセント、途中での話題変更といった実通話の条件を想定してGrok Voiceを訓練したとxAIは述べています。応答はサブ秒レベルを目標に設計されています。

知識ベースとツール連携で「答える」から「動く」へ

エージェントが参照する情報は知識ベースから供給します。プレーンテキスト、Markdown、PDF、Word、PowerPoint、Excel、HTML、JSONなどをアップロードし、通話中に検索して回答に使います。ドキュメントはコレクション単位で整理でき、複数のエージェントでポリシーや製品仕様、手順書を共有できます。社内文書にない内容はWeb検索やX検索で公開情報を取りにいく設定も可能です。

ツール連携では、Gmail、Google Calendar、Outlook、Linear、Notion、OneDriveなどに直接接続できます。予約ラインではカレンダーに予定を入れ、メールで確認を送る。サポートではAPIで注文状況を照会したり返金処理を走らせたりする、といった動きが通話の途中で完結します。

Model Context Protocol（MCP）は、AIが外部ツールやデータソースと標準化された方法でやり取りするための仕組みです。Voice Agent BuilderはカスタムMCPに対応し、社内データベース、CRM、独自API、ワークフローをエージェントから呼び出せます。人間への引き継ぎが必要なときは転送し、タスク完了後に通話を終了する動きも定義できます。各通話は録音・文字起こしされ、どのツールが使われたかも追跡できます。

既存の電話番号を活かすSIPとエンタープライズ機能

新規番号だけでなく、主要なテレフォニープロバイダー経由のSIPで既存番号を接続できます。WebSocket経由で自前クライアントをつなぐ選択肢もあり、2026年初頭に公開されたGrok Voice Agent APIと同じ音声エンジンの上に、今回のBuilderがノーコードの入り口として位置づけられています。

エンタープライズ向けには、設定可能なガードレールでカード番号の読み上げ禁止などの制限を設けられます。SOC 2、HIPAA適格、GDPR準拠を謳っており、コンプライアンス要件のある業務への投入を想定した説明です。

料金は分単位のシンプル課金

料金はエージェントの音声処理が1分あたり0.05ドルです。ボイス料金は別途かからず、プラットフォーム利用料も現時点ではありません。xAIが無料で割り当てる電話番号を使う場合、テレフォニー料金として1分あたり0.01ドルが上乗せされます。xAIは他社製品が認識・推論・合成・プラットフォームを個別に課金する傾向に対し、通話量に掛け算できる少数のメーターに絞ったと説明しています。

ベンチマークと使い始めるときの視点

xAI独自のτ-voice Benchでは、Grok Voice Think Fast 1.0が67.3%、Gemini 3.1 Flash Liveが43.8%、GPT Realtime 1.5が35.3%と掲載されています。ただしこの数値はxAIが実施したベンチマークであり、第三者による独立検証は公表されていません。実際の導入判断では、自社の難しい問い合わせフローでブラウザテストや試験通話を行い、応答品質とツール連携の安定性を確認するのが確実です。

Voice Agent Builderはベータ段階のため、利用可否や機能の拡充は今後変わる可能性があります。それでも、電話・知識・ツール・監査を1か所に集約した点は、音声エージェントをデモから業務フローへ移すハードルを下げる動きとして注目に値します。カスタマーサポートや予約受付の自動化を検討しているチームは、公式ページからエージェントを1本つくり、最も手間のかかる通話パターンで試すのが近道です。