GPT-Image-2が2026年4月21日にリリースされた。DALL-E 3の後継として位置づけられ、画像生成の精度・テキスト描画・編集耐性でひとつ上のステージに到達したモデルだ。

この記事でわかること:

  • DALL-E 3から何がどう変わったか
  • 多言語テキスト描画と高密度シーン合成の仕組み
  • APIの料金体系と既存コードへの移行コスト

DALL-E 3が終わる

OpenAIはDALL-E 2とDALL-E 3を2026年5月12日付で廃止する予定だ。GPT-Image-2はその後継として、ChatGPTとOpenAI APIの両方で標準の画像モデルとなる。

API上のモデル名は gpt-image-2。既存のDALL-E 3呼び出しはモデル文字列を変えるだけで移行できる。

Arenaで記録的なリード

リリースから12時間で、GPT-Image-2はImage Arenaリーダーボードの全カテゴリを制した。スコアは1,512——2位のNano Banana 2との差は242ポイントで、このリーダーボード上でこれほどのリードを記録したモデルは過去に存在しない。

何が変わったか

テキスト描画の精度が約99%に達した

画像生成モデルの長年の弱点がテキスト描画だった。文字が潰れる、アルファベットが化ける、日本語や中国語は文字にすら見えない——そうした問題がGPT-Image-2ではほぼ解消された。

ラテン文字・日本語・中国語・韓国語・アラビア語・ヒンディー語・ベンガル語を対象とした文字単位の精度は約99%とされる。実際に日本語の吹き出しを持つマンガページを1プロンプトで生成し、吹き出し内のテキストが読める日本語になっていることが複数のテストで確認されている。

ポスター・インフォグラフィック・UIモックアップ・パッケージデザインなど、テキストを含む画像をワークフローに組み込んでいるユーザーにとって最も大きな変化だ。

100個のオブジェクトを1枚に詰め込める

複数の要素を正確に描き分ける「高密度シーン合成」が大幅に強化された。「100種類のアイテムを1枚に入れてリストも画像内に書き出せ」というプロンプトに対し、GPT-Image-2は100個の要素を描画したうえで、それらの名前を同じ画像内にテキストとして列挙した(参考)。

従来モデルでは要素の省略・重複・幻覚が発生しやすかったシーン——多数のウィンドウが開いたデスクトップ画面や複雑なUI画面など——も1枚のプロンプトで扱えるようになっている。

顔を維持したまま編集できる

「ジャケットを紺色に変えて、それ以外は全部そのままにして」といった編集命令を受けたとき、これまでのモデルは顔が別人になる、背景が変わる、ポーズがずれるといった崩れが起きやすかった。

GPT-Image-2はマルチターン編集においてこの問題を抑えた。指定した要素だけを変更し、周囲の構図・顔・背景を保持する精度が上がっている。人物写真の差し替え用途や、一連の製品画像を管理する用途に直接効く改善だ。

4K出力と約2倍の速度

出力解像度は最大4K(4,096×4,096ピクセル)まで対応した。同時に、生成速度は前バージョン比で約2倍に改善されている。

1枚のプロンプトから最大8枚のコヒーレントな画像をまとめて生成できる機能も追加された。キャラクターやオブジェクトの一貫性を保ちながら複数バリエーションを出したい用途に向く。

推論パスの内蔵

GPT-Image-2はOpenAIの画像モデルとして初めて、生成前に短い推論パス(thinking)を実行するアーキテクチャを持つ。これにより、以前は細かいプロンプトエンジニアリングが必要だったリクエストが初回のプロンプトで通るケースが増えた。

料金

https://openai.com/api/pricing/

OpenAI APIでの料金体系はトークン単位の従量制だ。

区分 料金
テキスト入力 $5 / 100万トークン
画像入力(参照画像) $8 / 100万トークン
画像出力 $30 / 100万トークン
プロンプトキャッシュ読み込み $1.25 / 100万トークン
画像キャッシュ $2 / 100万トークン

解像度とプロンプトの複雑さによって変わるが、1枚あたりの実コストは概ね$0.04〜$0.35の範囲に収まる。

DALL-E 3との違い

DALL-E 3はプロンプトの自動書き換えにより「指示通りに描く」精度を上げたモデルだった。GPT-Image-2はその軸をさらに進めながら、テキスト描画・高密度シーン・編集時の保持精度という三点を大幅に補強した。

廃止予定の5月12日までに移行すれば既存のワークフローへの影響は最小限で済む。DALL-E 3を使っているコードベースであればモデル文字列の変更だけで動作する。

まとめ

GPT-Image-2は4月21日にリリースされ、DALL-E 2・DALL-E 3の後継として画像生成APIの標準モデルとなった。日本語を含む多言語テキストの正確な描画、高密度シーンの一括生成、編集時の顔・構図保持が主な強化点だ。5月12日のDALL-E廃止までに移行の準備を進めておきたい。