OpenAI Realtime APIに3音声モデル翻訳・文字起こし・GPT-5推論

リアルタイム音声AIが、単なる「話しかけて返答を待つ」仕組みから変わりはじめています。

OpenAIは2026年5月7日、Realtime APIに3つの新しい音声モデルを追加しました。対話・翻訳・文字起こしをそれぞれ専門とするモデルで、開発者が音声インターフェースをアプリへ組み込む選択肢が大きく広がります。

この記事でわかること：

GPT-Realtime-2がGPT-Realtime-1.5から何を変えたか
GPT-Realtime-Translateの対応言語数とリアルタイム翻訳の仕組み
GPT-Realtime-Whisperのユースケースと遅延制御の方法
3モデルそれぞれのAPI料金

https://platform.openai.com/docs/guides/realtime

3モデルが解決する課題

従来のRealtime APIは、GPT-Realtime-1.5による音声会話応答を中心に設計されていました。リアルタイム翻訳や文字起こしを実装しようとすると、Whisper APIや翻訳サービスを別途組み合わせる必要があり、エンドポイント間のデータ受け渡しによる遅延と実装コストが課題でした。

今回の追加で、音声対話・翻訳・文字起こしのそれぞれに最適化したモデルを単一のRealtime API上で扱えるようになります。OpenAIは「コール&レスポンス型の音声から、実際に仕事をこなせる音声インターフェースへの移行」と位置づけています。

GPT-Realtime-2 — 会話しながら推論するモデル

GPT-Realtime-2は、前世代のGPT-Realtime-1.5の後継です。最大の変化は、GPT-5クラスの推論能力を音声応答に組み込んだ点です。

従来の音声AIは、複雑な要求を処理しながら会話のリズムを保つのが難しい構造でした。GPT-Realtime-2は、外部APIへのツールコールや話者の割り込みをリアルタイムで処理しながら、会話の流れを途切れさせない設計になっています。顧客からの問い合わせに答えながら在庫データベースへ同時アクセスするようなシナリオで、応答の自然さを保てます。

料金は音声入力$32.00/100万トークン、キャッシュ済み入力$0.40/100万トークン、音声出力$64.00/100万トークンです。

GPT-Realtime-Translate — 70言語以上に対応するリアルタイム通訳

GPT-Realtime-Translateは、話者のペースに追いつく形でリアルタイム翻訳を行うモデルです。入力は70言語以上に対応し、出力言語は13言語です。

翻訳セッションは/v1/realtime/translationsという専用エンドポイントで動作します。通常の音声エージェントとは異なり、ユーザーのターン終了を待たずに音声が流れ込んだ時点から翻訳を開始します。翻訳音声とテキスト文字起こしを同時に受け取れる設計のため、国際カンファレンスの同時通訳システムや多言語カスタマーサポートへの組み込みが想定される主な用途です。

料金は$0.034/分（$0.00057/秒）です。

GPT-Realtime-Whisper — 遅延を制御できる音声認識

GPT-Realtime-Whisperは、音声をリアルタイムでテキストに変換するモデルです。話者が発話している最中に文字起こしが順次生成される低遅延設計で、オンスクリーン字幕や自動議事録への組み込みをOpenAIは主な用途として挙げています。

遅延の調整が可能で、低遅延設定では早いタイミングで仮テキストが出力されます。高遅延設定では認識精度が上がります。実際の収録環境、対象言語、専門用語の頻度に応じて、本番投入前にどちらの設定が適切か検証するよう公式ドキュメントは推奨しています。

料金は$0.017/分（$0.00028/秒）です。

利用方法と安全対策

3つのモデルはすべてOpenAIのRealtime APIで提供されており、OpenAI Playgroundでの試験利用が可能です。エンドポイントは用途に応じて分かれており、音声エージェントは/v1/realtime、翻訳専用セッションは/v1/realtime/translationsを使います。

スパムや詐欺目的の悪用を防ぐガードレールが3モデル共通で組み込まれています。有害コンテンツのガイドライン違反を検出した場合、会話を自動停止する仕組みです。

OpenAIが想定する用途は顧客サービス、教育、メディア、イベント、クリエイタープラットフォームで、企業向けの音声インターフェース開発が主なターゲットです。

まとめ

今回の3モデル追加で、Realtime APIは音声会話専用のAPIから音声処理の統合基盤へと変わります。翻訳・文字起こし・高度な対話推論を同一のAPIで扱えることで、国際対応のカスタマーサポート、会議の自動議事録、リアルタイム字幕システムの実装コストが下がります。

GPT-Realtime-WhisperとGPT-Realtime-Translateは分単位の従量課金のため、既存のWhisper APIと比較しながら用途に合わせた採用判断が現実的です。