OpenAIが2026年4月23日、「GPT-5.5(コードネーム:Spud)」をリリースしました。前モデルのGPT-5.4からわずか6週間後という異例のスピードで、AIレースの加速ぶりが際立っています。

この記事でわかること:

  • GPT-5.5の4つの改善領域と主なベンチマーク結果
  • Claude Opus 4.7・Gemini 3.1 Proとの性能比較
  • ChatGPT・Codexでの利用条件と対象プラン
  • API料金の変化(GPT-5.4比2倍)

https://openai.com/index/introducing-gpt-5-5/

GPT-5.5で何が変わったか

GPT-5.5は「エージェントとして使う」ことを前提に再トレーニングされたモデルです。従来はステップごとに指示が必要だった複雑なタスクを、目標だけ伝えれば自律的に計画・実行・修正まで行います。

OpenAI社長のグレッグ・ブロックマン氏は「不明瞭な問題を見て何をすべきかを自分で判断できる」と説明し、「エージェント・コンピューティングがどう機能するかの基盤を作っている」と述べています。

OpenAIは改善領域を4つに絞っています。エージェント型コーディング、コンピューター操作、知識労働、初期科学研究です。いずれも「長期にわたる複数ステップの推論」が必要な領域に的を絞った強化となっています。

コーディングと数学推論のベンチマーク

エージェント型コーディングのベンチマーク「Terminal-Bench 2.0」では、GPT-5.5が82.7%を達成しました。GPT-5.4の75.1%から7.6ポイント向上し、Claude Opus 4.7の69.4%、Gemini 3.1 Proの68.5%を上回ります。

数学推論の難関「FrontierMath Tier 4」ではGPT-5.5が35.4%。GPT-5.4の27.1%、Claude Opus 4.7の22.9%、Gemini 3.1 Proの16.7%と比べ、難問になるほど差が開く傾向があります。

GitHubの実際のissueを解決するSWE-Bench Proでは58.6%で、Claude Opus 4.7の64.3%には及びませんでした。OpenAIは「AnthropicもこのベンチマークでのAIの記憶化(メモリゼーション)の兆候を認めている」と指摘しています。ツール使用を評価するMCP Atlasでも75.3%で、Claude Opus 4.7の79.1%、Gemini 3.1 Proの78.2%に届かない領域もあります。

長文コンテキスト処理が大幅に改善

GPT-5.5で特に目立つ改善が長文処理です。512Kから1Mトークンの長文から情報を探し出す「MRCR v2」ベンチマークでは74.0%を記録しました。GPT-5.4が36.6%だったため、倍以上の向上です。

100万トークンを扱う「Graphwalks BFS」テストでも9.4%から45.4%へと4倍以上の改善を達成しました。大量のドキュメントを横断して情報を探すユースケースで、実用的な差が生まれます。

速度はGPT-5.4と同水準

性能が上がったにもかかわらず、1トークンあたりのレイテンシはGPT-5.4と変わりません。さらに同じCodexタスクを完了するために必要なトークン数が減少しており、利用コストを抑えられる場面もあります。

OpenAIはGPT-5.5とCodexを活用して自社の推論インフラを最適化した事例も公開しています。Codexが本番トラフィックパターンを分析してロードバランシングのアルゴリズムを書き換え、トークン生成速度が20%以上向上したとのことです。

Codexには高速モードも用意されており、通常比1.5倍速で動作しますが、コストは2.5倍になります。

利用できるプランと条件

ChatGPTでは「GPT-5.5 Thinking」をPlus・Pro・Business・Enterpriseプランで利用できます。上位モデルの「GPT-5.5 Pro」はPro・Business・Enterpriseに限定です。

CodexではPlus・Pro・Business・Enterprise・Edu・Goの各プランで利用可能で、コンテキストウィンドウは40万トークンです。無料プランへの提供時期はまだ発表されていません。

API料金はGPT-5.4の2倍

APIの料金はGPT-5.4から倍増しています。

モデル 入力(1Mトークン) 出力(1Mトークン)
GPT-5.5 $5 $30
GPT-5.5 Pro $30 $180
GPT-5.4(参考) $2.50 $15

コンテキストウィンドウは100万トークン。バッチ・フレックス処理は通常料金の半額、プライオリティ処理は2.5倍です。APIは「まもなく」提供予定とされています。

OpenAIはトークン効率の改善を理由に値上げを正当化しています。同じタスクにかかるトークン数が減れば、実質的な費用は料金表の倍増ほど膨らまないという論理です。

企業・社内での活用事例

OpenAI社内では85%以上の従業員がCodexを週次で使用しています。コミュニケーションチームが6ヶ月分のスピーキングリクエストデータをGPT-5.5で処理してスコアリングと自動承認フローを構築。財務チームは24,771件(7万1,000ページ超)のK-1税務フォームを処理し、作業期間を2週間短縮しました。

バンク・オブ・ニューヨーク・メロンのCIOも「幻覚(hallucination)への耐性に明確な改善が見られ、規制の厳しい金融機関にとって重要な変化だ」と述べています。

まとめ

GPT-5.5はエージェント特化の再トレーニングモデルで、コーディングと長文処理で前世代から目立った改善があります。Claude Opus 4.7に対しては優位な指標と劣る指標が混在しており、用途によって使い分けが必要です。API料金はGPT-5.4の2倍と上昇しましたが、トークン効率の改善で実コストが抑えられる場面もあります。現時点でAPIはまだですが、ChatGPT・Codexの有料プランからすぐに試せます。