音声アシスタントの応答待ちが会話の流れを途切れさせる課題に、オープンソースの全スタックが正面から答えを出しました。

2026年7月1日、Hugging FaceとCerebrasはGemma 4 31Bを使ったリアルタイム音声AIのデモを公開しました。Andi Marafioti氏(Hugging Face)の投稿では、Cerebrasの高速推論によりLLM応答がほぼ即時に返り、Web検索にも対応する点が強調されています。スタック全体がオープンソースで、OpenAI Realtime APIのドロップイン代替になると説明されています(参考)。

この記事では、公開された構成の仕組みと、開発者が自分で試すための入口を整理します。

この記事でわかること

  • Gemma 4音声デモの4段パイプライン構成
  • Cerebras推論が遅延のボトルネックをどう解くか
  • OpenAI Realtime API互換のWebSocketエンドポイントの使い方
  • デモ体験とローカル構築の入口

遅延が音声AIの体験を左右する

音声対話では、応答までの待ち時間が長いと会話が途切れて感じられます。モデル品質は向上してきた一方、本番環境では中央値のレイテンシは許容範囲でも、P95で数秒の遅延が出るケースが少なくありません。ツール呼び出しやマルチモーダル処理が入ると、往復が増えて遅延はさらに目立ちます(参考)。

今回のデモは、カスケード型のspeech-to-speechパイプラインでこの課題に取り組んでいます。各レイヤーがモジュール化され、部品ごとに差し替え可能な設計です。

4段構成で音声を往復させる

処理の流れは次のとおりです。

  1. 音声入力をNVIDIA Parakeetで文字起こし(STT)
  2. Gemma 4 31Bで推論(Cerebras Inference上で実行)
  3. Alibaba Qwen3-TTSで音声合成(TTS)
  4. 合成音声をユーザーに返す

Hugging Face公式ブログは、Cerebrasの高速推論、Google DeepMindのGemma 4 31B、AlibabaのQwen3-TTSを組み合わせた構成だと説明しています。各レイヤーはコードを読み、改変し、拡張できます(参考)。

Gemma 4 31BはGoogle DeepMindが公開したオープンウェイトのマルチモーダルモデルです。テキストと画像入力に対応し、Apache 2.0ライセンスで利用できます。Cerebrasのベンチマークでは、Artificial Analysisの計測で出力1,851トークン/秒、一般的なGPUエンドポイントの約35倍の速度と報告されています。推論を含む初回トークンまで1.5秒、インテリジェンス指数ではClaude Haiku 4.5(30点)と同水準の29点です(参考)。

Marafioti氏の投稿では「画面を見てWebを検索する」能力にも触れています。Gemma 4はネイティブのツール呼び出し(function calling)に対応しており、音声会話の途中で検索ツールを走らせる構成が現実的です。Cerebras側の高速推論が、ツール呼び出しを含む往復でも体感遅延を抑える役割を担います。

OpenAI Realtime API互換のWebSocketを公開

このデモの基盤はHugging Faceのオープンソースプロジェクト speech-to-speech です。pip install speech-to-speech で導入でき、デフォルトはParakeet TDT(STT)、OpenAI互換API(LLM)、Qwen3-TTS(TTS)の組み合わせです。

注目点はRealtimeモードです。--mode realtime で起動すると、OpenAI Realtimeプロトコル互換のWebSocketエンドポイント /v1/realtime が立ち上がります。既存のOpenAI Realtimeクライアントを base_url だけ差し替えて接続できます。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8765/v1", api_key="not-needed")

with client.beta.realtime.connect(model="model_name") as conn:
    conn.session.update(
      session={
        "instructions": "You are a helpful assistant.",
        "turn_detection": {"type": "server_vad", "interrupt_response": True},
      }
    )

音声のストリーミング、ライブ文字起こし、割り込み(barge-in)、ツール呼び出しイベントまで、OpenAI Realtime APIと同じイベントモデルで扱えます。LLMバックエンドはローカルのTransformersやMLX、自前のvLLM・llama.cppサーバー、CerebrasやHF Inference Providersなど、OpenAI互換APIを実装する任意のプロバイダーに切り替え可能です。

Marafioti氏が「OpenAI Realtime APIのドロップイン代替」と表現した根拠はここにあります。音声入出力のプロトコル層をOSSで再現し、LLMだけをGemma 4 on Cerebrasに差し替える構成が成立します。

すでにロボット9,000台超で稼働中

同じ speech-to-speech パイプラインは、Hugging FaceのReachy Miniロボットでも使われています。公式ブログでは野外稼働が9,000台超と記載され、コミュニティでは1万台超の言及もあります(参考)。ロボットやエンボディドAIでは、応答速度が「生きている」感覚を左右するため、レイテンシ改善は装飾ではなく必須要件です。

Cerebras採用の動機もコスト削減だけではありません。低レイテンシと安定した推論速度により、長尾の遅延を抑え、大規模でも自然な会話体験を維持する、という位置づけです。

自分で試す入口

体験用のWebデモはHugging Face Space「HF Realtime Voice」で公開されています。WebSocket経由の音声チャットがブラウザから試せます。

ローカルで構築する場合は、リポジトリをクローンするかPyPIパッケージを入れ、speech-to-speech コマンドでRealtimeサーバーを起動します。LLMにCerebras InferenceのGemma 4 31Bを指定すれば、今回のデモと同系統の構成を再現できます。Gemma 4 31BはCerebras Inference Cloudでパブリックプレビュー提供中で、マルチモーダル推論・高速ドキュメント処理・リアルタイム音声向けワークロードが対象です(参考)。

音声AIをクローズドAPIに縛られず、モデル・推論基盤・音声エンジンを組み替えながら作りたい開発者にとって、今回の公開は実装の足がかりになります。Gemma 4の推論速度とRealtime互換プロトコルの組み合わせが、会話のテンポを変える条件をそろえた、という見方ができます。