声でUI操作するアプリを作る　gpt-realtime-1.5入門

OpenAIのRealtime APIに新モデル「gpt-realtime-1.5」が追加されました。従来のgpt-realtimeと同じ価格体系を維持しながら、音声理解・指示追従・多言語処理の3指標を一斉に改善しています。音声でアプリのUIを直接操作できるユースケースが示されており、2026年4月末時点での音声AIエージェント開発の新しい出発点となります。

この記事でわかること：

gpt-realtime-1.5が何をどれだけ改善したか
従来モデルとの技術的な違い
Realtime APIで音声インタラクションを実装する方法
実際のプロダクションでの導入事例

https://developers.openai.com/api/docs/models/gpt-realtime-1.5

gpt-realtimeとは何か

gpt-realtimeは、音声入力から音声出力までを一つのモデルで処理する「音声エンド・ツー・エンド」アーキテクチャを採用したOpenAIのモデルです。従来の音声AIシステムが「音声認識 → テキスト処理 → 音声合成」と三段階のパイプラインを組んでいたのとは異なり、単一のモデルが音声を直接解釈して音声で回答します。これによりパイプライン間の遅延がなくなり、会話の間、抑揚、感情などの微細なニュアンスが保たれます。

3つの改善指標

gpt-realtime-1.5は前世代から以下の3点が改善されています。

音声推論精度：Big Bench Audioベンチマークで5%向上。複雑な音声タスクへの対応精度が上がっています。

数字・記号の聞き取り：英数字の転写精度が10.23%向上。電話番号、住所、コード番号といったビジネス用途で多く登場する情報を聞き誤りにくくなりました。

指示追従：命令への準拠率が7%改善。ユーザーの発話から意図を正確に読み取り、ツール呼び出しや状態変更などの操作を確実に実行します。

多言語対応も強化されており、英語以外の言語での精度にも改善が入っています。

音声でUIを操作する新しい使い方

gpt-realtime-1.5で公式が強調しているユースケースが「音声によるアプリ状態の制御」です。従来の音声AIは「会話への回答」を主目的としていましたが、gpt-realtime-1.5では音声入力をトリガーにアプリ内の状態変更を自然な形で実行できます。

例えば、ユーザーが「画面を暗くして」と話しかけるだけで、UIのテーマを変更するツールが呼び出される、といった実装が可能です。指示追従精度の向上により、曖昧な表現や複数ステップの指示もより確実に処理されます。

APIの接続方法

Realtime APIへの接続にはWebRTC、WebSocket、SIPの3方式があります。

WebRTCはブラウザから直接音声ストリームを送れるため、Webアプリに最も統合しやすい方式です。WebSocketはサーバーサイドのアプリや低レイテンシが必要な用途に向いています。SIPは既存のIP電話インフラに接続する際に使います。

モデルの指定は以下のように行います。

import openai

client = openai.OpenAI()
session = client.beta.realtime.sessions.create(
    model="gpt-realtime-1.5",
    voice="alloy",
    instructions="You are a helpful assistant that controls app state via voice.",
    tools=[
        {
            "type": "function",
            "name": "set_theme",
            "description": "Change the UI theme",
            "parameters": {
                "type": "object",
                "properties": {
                    "theme": {"type": "string", "enum": ["light", "dark"]}
                }
            }
        }
    ]
)

コンテキストウィンドウは入力32,000トークン・出力4,096トークンです。

料金

gpt-realtime-1.5の料金はgpt-realtimeと同一です。

音声トークンの場合、入力が100万トークンあたり$32（キャッシュ済みは$0.40）、出力が$64です。テキストトークンは入力$4、出力$16となっています。精度向上がありながら価格が据え置きなのは、実装コストを変えずに性能を底上げできる点で実用的です。

プロダクションでの導入実績

AIサーチのGenspark社は、gpt-realtime-1.5への移行後に音声エージェントの接続成功率が約66%まで向上し（ほぼ2倍）、通話中のエラーが半減したと報告しています（参考）。チャット・メッセージング基盤を提供するSendbird社は、割り込み処理（ユーザーが発話中に口を挟む動作）の精度が著しく改善したと述べています。

いずれも、音声エージェントを本番環境で運用する上で重要な指標です。

既存の`gpt-realtime`との移行方法

移行に必要な変更はモデル名の書き換えのみです。APIのパラメーター体系や料金は変わらないため、現在gpt-realtimeを使っているコードはモデル文字列をgpt-realtime-1.5に変えるだけで動作します。セッション設定、ツール定義、音声タイプの指定方法もそのまま引き継がれます。

まとめ

gpt-realtime-1.5は、価格を変えずに音声推論・転写精度・指示追従の3指標を改善した音声AIモデルです。音声でアプリの状態を操作するユースケースへの適性が高まり、実際の本番環境でも接続成功率やエラー低減という形で効果が確認されています。既存のgpt-realtimeからの移行はモデル名の変更だけで完了するため、音声エージェントを開発・運用しているチームにとっては試す価値があります。