Gemma 4音声AIがOSSでRealtime API代替に対応

音声アシスタントの応答待ちが会話の流れを途切れさせる課題に、オープンソースの全スタックが正面から答えを出しました。

2026年7月1日、Hugging FaceとCerebrasはGemma 4 31Bを使ったリアルタイム音声AIのデモを公開しました。Andi Marafioti氏（Hugging Face）の投稿では、Cerebrasの高速推論によりLLM応答がほぼ即時に返り、Web検索にも対応する点が強調されています。スタック全体がオープンソースで、OpenAI Realtime APIのドロップイン代替になると説明されています（参考）。

この記事では、公開された構成の仕組みと、開発者が自分で試すための入口を整理します。

この記事でわかること

Gemma 4音声デモの4段パイプライン構成
Cerebras推論が遅延のボトルネックをどう解くか
OpenAI Realtime API互換のWebSocketエンドポイントの使い方
デモ体験とローカル構築の入口

遅延が音声AIの体験を左右する

音声対話では、応答までの待ち時間が長いと会話が途切れて感じられます。モデル品質は向上してきた一方、本番環境では中央値のレイテンシは許容範囲でも、P95で数秒の遅延が出るケースが少なくありません。ツール呼び出しやマルチモーダル処理が入ると、往復が増えて遅延はさらに目立ちます（参考）。

今回のデモは、カスケード型のspeech-to-speechパイプラインでこの課題に取り組んでいます。各レイヤーがモジュール化され、部品ごとに差し替え可能な設計です。

4段構成で音声を往復させる

HF Realtime Voice - a Hugging Face Space by smolagents

Voice chat over WebSocket against a HF speech-to-speech

huggingface.co

処理の流れは次のとおりです。

音声入力をNVIDIA Parakeetで文字起こし（STT）
Gemma 4 31Bで推論（Cerebras Inference上で実行）
Alibaba Qwen3-TTSで音声合成（TTS）
合成音声をユーザーに返す

Hugging Face公式ブログは、Cerebrasの高速推論、Google DeepMindのGemma 4 31B、AlibabaのQwen3-TTSを組み合わせた構成だと説明しています。各レイヤーはコードを読み、改変し、拡張できます（参考）。

Gemma 4 31BはGoogle DeepMindが公開したオープンウェイトのマルチモーダルモデルです。テキストと画像入力に対応し、Apache 2.0ライセンスで利用できます。Cerebrasのベンチマークでは、Artificial Analysisの計測で出力1,851トークン/秒、一般的なGPUエンドポイントの約35倍の速度と報告されています。推論を含む初回トークンまで1.5秒、インテリジェンス指数ではClaude Haiku 4.5（30点）と同水準の29点です（参考）。

Marafioti氏の投稿では「画面を見てWebを検索する」能力にも触れています。Gemma 4はネイティブのツール呼び出し（function calling）に対応しており、音声会話の途中で検索ツールを走らせる構成が現実的です。Cerebras側の高速推論が、ツール呼び出しを含む往復でも体感遅延を抑える役割を担います。

OpenAI Realtime API互換のWebSocketを公開

GitHub - huggingface/speech-to-speech: Build local voice agents with open-source models

Build local voice agents with open-source models. Contribute to huggingface/speech-to-speech development by creating an …

GitHub

このデモの基盤はHugging Faceのオープンソースプロジェクト speech-to-speech です。pip install speech-to-speech で導入でき、デフォルトはParakeet TDT（STT）、OpenAI互換API（LLM）、Qwen3-TTS（TTS）の組み合わせです。

注目点はRealtimeモードです。--mode realtime で起動すると、OpenAI Realtimeプロトコル互換のWebSocketエンドポイント /v1/realtime が立ち上がります。既存のOpenAI Realtimeクライアントを base_url だけ差し替えて接続できます。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8765/v1", api_key="not-needed")

with client.beta.realtime.connect(model="model_name") as conn:
    conn.session.update(
      session={
        "instructions": "You are a helpful assistant.",
        "turn_detection": {"type": "server_vad", "interrupt_response": True},
      }
    )

音声のストリーミング、ライブ文字起こし、割り込み（barge-in）、ツール呼び出しイベントまで、OpenAI Realtime APIと同じイベントモデルで扱えます。LLMバックエンドはローカルのTransformersやMLX、自前のvLLM・llama.cppサーバー、CerebrasやHF Inference Providersなど、OpenAI互換APIを実装する任意のプロバイダーに切り替え可能です。

Marafioti氏が「OpenAI Realtime APIのドロップイン代替」と表現した根拠はここにあります。音声入出力のプロトコル層をOSSで再現し、LLMだけをGemma 4 on Cerebrasに差し替える構成が成立します。

すでにロボット9,000台超で稼働中

同じ speech-to-speech パイプラインは、Hugging FaceのReachy Miniロボットでも使われています。公式ブログでは野外稼働が9,000台超と記載され、コミュニティでは1万台超の言及もあります（参考）。ロボットやエンボディドAIでは、応答速度が「生きている」感覚を左右するため、レイテンシ改善は装飾ではなく必須要件です。

Cerebras採用の動機もコスト削減だけではありません。低レイテンシと安定した推論速度により、長尾の遅延を抑え、大規模でも自然な会話体験を維持する、という位置づけです。

自分で試す入口

体験用のWebデモはHugging Face Space「HF Realtime Voice」で公開されています。WebSocket経由の音声チャットがブラウザから試せます。

HF Realtime Voice - a Hugging Face Space by smolagents

Voice chat over WebSocket against a HF speech-to-speech

huggingface.co

ローカルで構築する場合は、リポジトリをクローンするかPyPIパッケージを入れ、speech-to-speech コマンドでRealtimeサーバーを起動します。LLMにCerebras InferenceのGemma 4 31Bを指定すれば、今回のデモと同系統の構成を再現できます。Gemma 4 31BはCerebras Inference Cloudでパブリックプレビュー提供中で、マルチモーダル推論・高速ドキュメント処理・リアルタイム音声向けワークロードが対象です（参考）。

音声AIをクローズドAPIに縛られず、モデル・推論基盤・音声エンジンを組み替えながら作りたい開発者にとって、今回の公開は実装の足がかりになります。Gemma 4の推論速度とRealtime互換プロトコルの組み合わせが、会話のテンポを変える条件をそろえた、という見方ができます。