コールセンターの人件費は膨らむ一方なのに、対応品質は安定しない。そんな課題に対して、AIが電話応対を丸ごと引き受ける時代が来ています。ElevenLabs Agentsは、70以上の言語で人間のように会話し、通話中に予約やチケット更新まで実行するAI音声エージェントプラットフォームです。
この記事でわかること
- ElevenLabs Agentsの概要と解決する課題
- 音声・マルチモーダル・テキストの3モードの違い
- 料金体系と競合サービスとの比較
- 導入時に知っておくべき注意点
ElevenLabs Agentsの概要
ElevenLabs Agentsは、ElevenLabsが提供する会話型AIエージェントプラットフォームです。従来のIVR(自動音声応答)やチャットボットとは異なり、リアルタイムで自然な音声対話を行い、通話中にAPIを呼び出して実際の業務処理まで完結します。
最大の特徴は音声品質です。ElevenLabsはもともとテキスト読み上げ(TTS)技術で知られており、11,000以上の音声オプションを持っています。この技術基盤の上に構築されたAgentsは、機械的な読み上げではなく、人間の会話に近い抑揚やテンポで応答します。
3つの対話モード
ElevenLabs Agentsには、用途に応じた3つのモードがあります。
音声のみ(Voice Only)は、電話応対に特化したモードです。通話時間に基づく従量課金で、10秒以上の沈黙には95%の割引が適用されます。FAQ対応や注文受付など、音声だけで完結する業務に向いています。
マルチモーダルは、音声とテキストを組み合わせたモードです。たとえば電話中に確認メールを送る、チャット画面で画像を共有しながら音声で説明するといった使い方が可能です。通話料金に加えて、テキストメッセージごとの課金(0.3〜0.4セント/通)が発生します。
テキストのみ(Text Only)は、Webチャットやメッセージアプリ向けのモードです。音声を使わないため通話料金はかからず、テキストメッセージ単位の課金のみで運用できます。
70以上の言語と自動検出
ElevenLabs Agentsは70以上の言語に対応しています。注目すべきは自動言語検出機能で、ユーザーが英語で話し始めてフランス語に切り替えても、エージェントが自動で追従します。多言語対応のコールセンターでは、言語ごとにオペレーターを配置する必要がなくなります。
ツール呼び出しとRAG
Agentsは単に質問に答えるだけではありません。通話中にAPIを呼び出して、予約の登録、チケットのステータス更新、注文処理といった実務を実行できます。CRMやヘルプデスクなど、既存の業務システムとの連携も可能です。
ナレッジベースにはRAG(検索拡張生成)が組み込まれています。社内ドキュメントやFAQをアップロードすると、エージェントが自動でインデックスを作成し、質問に対して根拠のある回答を返します。ドキュメントが更新されれば、インデックスも自動で再構築されます。
独自のターンテイキングモデル
音声AIでよくある問題が「割り込み」の処理です。ユーザーが話している途中でエージェントが被せてしまったり、逆にユーザーの発話が終わっても無言の間が続いたりする現象は、体験を大きく損ないます。
ElevenLabsはこの課題に対して独自のターンテイキングモデルを開発しました。人間の会話に見られる「間」や「ためらい」を学習し、話し始めるタイミングと聞き続けるタイミングを判断します。ユーザーが途中で割り込んだ場合も、即座に発話を停止して聞く側に回ります。
料金体系
Agentsの料金はティアによって分かれています。Standard($0.08/分)は一般的なFAQ対応や注文受付向けで、Turbo($0.10/分)は約400msの低レイテンシが求められるアウトバウンド通話向け、Premium($0.12/分)はGPT-4oとFlash v2.5音声を組み合わせた最高品質の対話を提供します。
いずれのティアでも、LLM(大規模言語モデル)の利用コストは別途かかります。GPT、Claude、Geminiなど外部LLMを接続する場合、各プロバイダの従量課金がそのまま上乗せされる仕組みです。エージェントの設定画面から、過去の利用実績に基づく推定コストを確認できます。
スタートアップ向けには最大4,000ドル分のクレジットが提供されており、小規模な検証から始めやすい設計になっています。
競合サービスとの違い
音声AIエージェント市場には、Vapi、Retell AI、Blandといった競合が存在します。
Vapiはオーケストレーション層として14以上のプロバイダを束ねる設計で、月間6,200万通話を処理する実績があります。料金は$0.05/分のオーケストレーション費に加えて各プロバイダの利用料が別途かかるため、実際のコストはElevenLabsと同等かそれ以上になる場合があります。
Retell AIはコンプライアンスを重視した構造化ダイアログに強みを持ちます。LLM任せの自由会話ではなく、会話の流れをあらかじめ定義できるため、医療・金融・保険など規制の厳しい業界で採用が進んでいます。
Blandは大量のアウトバウンド営業電話に特化しており、月額の通話分数を事前に購入するモデルです。
ElevenLabs Agentsの強みは、音声品質と多言語対応の幅広さにあります。11,000以上の音声バリエーションと70以上の言語対応は、他のプラットフォームを上回る規模です。一方、テレフォニー(電話網)にネイティブ対応していない点は弱みで、電話回線の接続にはTwilioなどの外部サービスが必要になります。
導入前に確認すべき点
ElevenLabs Agentsを本番運用する前に、いくつか把握しておくべきことがあります。
まず、LLMコストの見積もりです。Agentsの通話料金に加えて外部LLMの従量課金が発生するため、1通話あたりの総コストは事前にシミュレーションしておく必要があります。設定画面の「Detailed costs」ボタンから推定コストを確認できます。
次に、通話時間の計測方法です。課金対象となる通話時間は、接続開始から切断までの全時間です。エージェントの応答時間だけでなく、接続待ちの時間も含まれる点に注意してください。
最後に、無料プランでもエージェントの作成自体は可能ですが、通話の実行にはStarterプラン以上の契約、またはPay As You Goクレジットの購入が必要です。
まとめ
ElevenLabs Agentsは、高品質な音声合成技術を土台に、70以上の言語対応・ツール呼び出し・RAGを統合した会話型AIプラットフォームです。$0.08/分からという料金設定は、人件費と比較すれば大幅なコスト削減が見込めます。テレフォニーのネイティブ対応が課題として残りますが、音声品質と多言語対応を最優先するユースケースでは有力な選択肢になります。

