AIエージェントの処理速度を制限していたのは、モデルの推論ではなくAPIの通信オーバーヘッドでした。OpenAIが Responses API に WebSocket モードを追加し、エージェントのワークフロー全体を最大40%高速化しています。

この記事でわかること:

  • なぜAPIの通信がボトルネックになっていたのか
  • WebSocketモードが解決する具体的な問題
  • 従来のHTTPリクエスト方式との違い
  • 導入企業が報告している実測値

APIオーバーヘッドがボトルネックになった背景

https://openai.com/index/speeding-up-agentic-workflows-with-websockets/

OpenAIのコーディングエージェント「Codex」は、バグ修正1件でも数十回のAPIリクエストを繰り返します。ファイルを探し、読み込み、編集し、テストを実行する。そのたびにResponses APIへリクエストを送り、結果を受け取り、次のアクションを決めます。

以前のGPT-5やGPT-5.2では推論速度が約65トークン/秒だったため、API側の処理時間は目立ちませんでした。GPT-5.3-Codex-Sparkで推論速度が1,000トークン/秒を超えると、状況が逆転します。モデルの応答は一瞬で返るのに、APIの前処理・後処理に時間がかかる。推論の高速化がそのままユーザー体験に反映されない構造的な問題が浮上しました。

原因は、リクエストのたびに会話履歴全体を再処理していたことです。会話が長くなるほど、変わっていない過去のコンテキストに対しても毎回トークン化やバリデーションを実行していました。

WebSocketモードの仕組み

https://developers.openai.com/api/docs/guides/websocket-mode

WebSocketモードでは、クライアントとAPI間で持続的な接続を維持します。従来のHTTP方式では、ツール呼び出しのたびに新しい接続を確立し、会話履歴全体を送信していました。WebSocketモードでは接続を開いたまま、差分だけを送受信します。

API側は接続ごとにインメモリキャッシュを保持します。previous_response_id を指定して response.create を送ると、前回のレスポンス状態をキャッシュから取得し、会話全体を再構築する処理をスキップします。

キャッシュされるデータは以下の通りです。

  • 前回のレスポンスオブジェクト
  • 入出力アイテムの履歴
  • ツール定義とネームスペース
  • レンダリング済みトークンなどの再利用可能な中間データ

このキャッシュにより、安全性チェックやバリデーションは新しい入力だけを対象に実行されます。トークン化もキャッシュに追記する形になり、毎回ゼロから処理する無駄がなくなりました。

開発者にとって重要なのは、APIのリクエスト・レスポンスの形式が変わらない点です。既存の response.create をそのまま使えるため、WebSocket接続の確立部分を追加するだけで移行できます。

制約と注意点

WebSocketモードにはいくつかの制限があります。1つの接続で複数の response.create を送信できますが、処理は逐次実行です。並列処理が必要な場合は複数の接続を使います。接続の持続時間は最大60分で、超過時には再接続が必要です。

このモードが効果を発揮するのは、ツール呼び出しを何度も繰り返すエージェント型のワークフローです。単発のAPI呼び出しでは恩恵は限定的です。OpenAIの公式ブログでは、20回以上のツール呼び出しを含むロールアウトで最大約40%の高速化が確認されたと報告しています。

導入企業の実測値

WebSocketモードは2026年2月にアルファ版として提供が始まり、主要なコーディングエージェント企業が早期に統合しました。各社が報告している改善幅は以下の通りです。

  • Vercel: AI SDKにWebSocketモードを統合し、レイテンシが最大40%減少
  • Cline: マルチファイルワークフローが39%高速化
  • Cursor: OpenAIモデルの処理が最大30%高速化

Codex自体もトラフィックの大半をWebSocketモードに移行済みです。GPT-5.3-Codex-Sparkでは目標の1,000トークン/秒を達成し、バースト時には4,000トークン/秒に達しています。

従来方式との使い分け

既存のHTTPベースのResponses APIは引き続き利用できます。単発の質問応答や、ツール呼び出しが少ないユースケースでは従来方式で十分です。WebSocketモードは、エージェントが自律的にツールを繰り返し呼び出すワークフローで真価を発揮します。

OpenAIはこの機能を、2025年3月のResponses APIローンチ以来で最も重要な追加機能と位置づけています。モデルの推論速度が上がるほど、周辺のインフラも同じ速度で追従する必要があるという課題に対する回答です。エージェント型アプリケーションを開発している場合、WebSocketモードへの移行はレイテンシ改善の即効性が高い選択肢です。