YouTubeの字幕がない動画、英語で進む海外ウェビナー、発話に追いつかないオンライン会議——こういった場面でリアルタイム翻訳が使えたら、どれほど助かるでしょうか。

Chrome拡張「Chromex」にGPT-Realtime-2を使ったリアルタイム翻訳が追加されました。YouTube動画、ライブ配信、会議、プレゼンテーションなど、Chrome内で流れる音声ならどこでも翻訳できます。

この記事でわかること:

  • ChromexのTranslation/Liveモードの仕組み
  • GPT-Realtime-TranslateとGPT-Realtime-2の違い
  • インストール手順と必要な前提条件
  • APIコストの目安と類似ツールとの違い

ChromexはChromeとCodexをつなぐサイドパネル拡張

Chromexは、GenexisAIのCHOIが開発したChrome MV3サイドパネル拡張です。GitHubでMITライセンスのもとオープンソース公開されています。

内部アーキテクチャは「Chrome拡張 → ネイティブメッセージングホスト → ローカルブリッジ → Codex app-server」という構成です。APIキーや認証情報をChrome拡張のストレージに直接保存しない設計で、セキュリティ面でも配慮がなされています。

ページ内容の参照、複数タブの横断比較、ファイル添付、音声入力、画像処理など幅広い機能を持ちます。なかでもTranslation/Liveモードは、Chrome内の音声をそのままリアルタイムで翻訳・字幕表示できる機能として注目されています。

Translation/LiveモードでYouTubeや会議を翻訳する

Translation/Liveモードは、Chromeで再生されているあらゆる音声を対象にします。YouTubeの動画、Twitchなどのライブ配信、ZoomやGoogle Meetのウェビナー、Loomのプレゼンテーション録画など、ブラウザ内で音が出る場面であれば設定変更なしに使えます。

翻訳はリアルタイムで進み、翻訳テキストはその場でサイドパネルに表示されます。翻訳後のテキストに対して「この部分をもう少し詳しく説明して」「全体を3行で要約して」といったフォローアップのチャットができるのも特徴です。翻訳しながら内容を確認するという作業が1つの画面で完結します。

OpenAIの3種類のリアルタイム音声モデル

Chromexのリアルタイム翻訳は、2026年5月7日にOpenAIが発表した新モデル群を使っています(参考)。

GPT-Realtime-Translateは、話者のペースに追いつきながら翻訳するリアルタイム専用モデルです。70言語以上の入力から13言語への出力変換に対応します。ChromexのTranslation/Liveモードが内部で使っているのがこのモデルです。

GPT-Realtime-2は、GPT-5クラスの推論能力を持つ音声会話モデルです。ツール呼び出しや会話の割り込み、複雑なリクエスト処理に対応しており、より高度な音声エージェントの構築に向いています。Chromexはフォローアップチャット部分でこのモデルの能力を活用しています。

GPT-Realtime-Whisperは、ストリーミング音声認識に特化したモデルです。発話と同時にテキスト変換が進み、ライブキャプションや会議の議事録作成に使えます。

いずれもOpenAIのRealtime APIから利用でき、Chromexはこれらをユーザーが設定したAPIキー経由で呼び出します。

インストール手順

Chromexを使うには、Chrome Web Storeからの拡張インストールに加えてローカルブリッジのセットアップが必要です。

まずCodex CLIをインストールします。バージョン0.130.0以上が必須です。

npm install -g @openai/codex
codex --version

次にGitHubのリリースページから chromex-local-bridge.zip をダウンロードして展開し、以下のコマンドを実行します。

node scripts/install-native-host.mjs --browser=chrome

実行後、Chromeをいったん完全に終了して再起動します。Chromexのサイドパネルで「Check connection」ボタンを押せば接続が確認できます。

Windowsの場合も手順はほぼ同じですが、PowerShellから実行し、Node.js 20 LTS以上が必要です。インストール後にサイドパネルが接続を認識しない場合は、scripts/install-native-host.mjs に拡張IDを明示的に渡して再実行すると解決することが多いです。

料金の目安

Chromex自体は無料です。Translation/Liveモードの使用にはOpenAI APIのコストが発生します。

GPT-Realtime-Translateのコストは1分あたり$0.034(約5円)です。1時間連続で使うと約$2(約300円)になります。同じリアルタイム音声カテゴリに属するGPT-Realtime-Whisperは1分あたり$0.017で約半額です。

GPT-Realtime-2はトークンベース課金で、音声入力100万トークンあたり$32、出力は$64です。

会議や講義を1日30〜60分程度リスニング補助として使うなら、月間のAPIコストは数百円に収まる計算です。

既存ツールとの違い

Chromeの標準ページ翻訳は、テキストが読み込まれたページの翻訳に向いており、リアルタイムで流れる音声には対応していません。Google翻訳の拡張機能も同様に、テキスト選択やページ全体の翻訳が中心です。

Maestra.aiのような専用音声翻訳サービスは高品質ですが、別途アカウント登録が必要でブラウザの外に操作が移ります。Chromexはブラウザのサイドパネル内で完結するため、作業の流れを中断せずに翻訳できます。

また、ChromexはMITライセンスのオープンソースなので、翻訳機能の実装や送受信データをコードレベルで確認できます。クローズドな拡張と違い、プライバシーポリシーを読むだけでなく実際の動作を検証できる点は、業務利用を検討する際に重要な選択肢になります。

ChromexとGPT-Realtime-2でリアルタイム翻訳が身近になった

海外の技術発表や製品デモ、英語の社内全体会議など、翻訳ニーズがある場面で毎回別のツールに切り替える手間はなくなります。Codex CLIのセットアップという初期ステップがありますが、一度整えれば追加のサービス登録なしでAPIキーだけで動き続けます。

OpenAIのGPT-Realtime-TranslateはChromex以外のアプリにも組み込めるため、ブラウザ翻訳以外の用途でも同じ仕組みを応用できます。