GPT-Image-2登場——DALL-E 3後継の新機能まとめ

GPT-Image-2が2026年4月21日にリリースされた。DALL-E 3の後継として位置づけられ、画像生成の精度・テキスト描画・編集耐性でひとつ上のステージに到達したモデルだ。

この記事でわかること：

DALL-E 3が終わる

OpenAIはDALL-E 2とDALL-E 3を2026年5月12日付で廃止する予定だ。GPT-Image-2はその後継として、ChatGPTとOpenAI APIの両方で標準の画像モデルとなる。

API上のモデル名は gpt-image-2。既存のDALL-E 3呼び出しはモデル文字列を変えるだけで移行できる。

リリースから12時間で、GPT-Image-2はImage Arenaリーダーボードの全カテゴリを制した。スコアは1,512——2位のNano Banana 2との差は242ポイントで、このリーダーボード上でこれほどのリードを記録したモデルは過去に存在しない。

画像生成モデルの長年の弱点がテキスト描画だった。文字が潰れる、アルファベットが化ける、日本語や中国語は文字にすら見えない——そうした問題がGPT-Image-2ではほぼ解消された。

ラテン文字・日本語・中国語・韓国語・アラビア語・ヒンディー語・ベンガル語を対象とした文字単位の精度は約99%とされる。実際に日本語の吹き出しを持つマンガページを1プロンプトで生成し、吹き出し内のテキストが読める日本語になっていることが複数のテストで確認されている。

ポスター・インフォグラフィック・UIモックアップ・パッケージデザインなど、テキストを含む画像をワークフローに組み込んでいるユーザーにとって最も大きな変化だ。

複数の要素を正確に描き分ける「高密度シーン合成」が大幅に強化された。「100種類のアイテムを1枚に入れてリストも画像内に書き出せ」というプロンプトに対し、GPT-Image-2は100個の要素を描画したうえで、それらの名前を同じ画像内にテキストとして列挙した（参考）。

従来モデルでは要素の省略・重複・幻覚が発生しやすかったシーン——多数のウィンドウが開いたデスクトップ画面や複雑なUI画面など——も1枚のプロンプトで扱えるようになっている。

「ジャケットを紺色に変えて、それ以外は全部そのままにして」といった編集命令を受けたとき、これまでのモデルは顔が別人になる、背景が変わる、ポーズがずれるといった崩れが起きやすかった。

GPT-Image-2はマルチターン編集においてこの問題を抑えた。指定した要素だけを変更し、周囲の構図・顔・背景を保持する精度が上がっている。人物写真の差し替え用途や、一連の製品画像を管理する用途に直接効く改善だ。

出力解像度は最大4K（4,096×4,096ピクセル）まで対応した。同時に、生成速度は前バージョン比で約2倍に改善されている。

1枚のプロンプトから最大8枚のコヒーレントな画像をまとめて生成できる機能も追加された。キャラクターやオブジェクトの一貫性を保ちながら複数バリエーションを出したい用途に向く。

GPT-Image-2はOpenAIの画像モデルとして初めて、生成前に短い推論パス（thinking）を実行するアーキテクチャを持つ。これにより、以前は細かいプロンプトエンジニアリングが必要だったリクエストが初回のプロンプトで通るケースが増えた。

OpenAI APIでの料金体系はトークン単位の従量制だ。

解像度とプロンプトの複雑さによって変わるが、1枚あたりの実コストは概ね$0.04〜$0.35の範囲に収まる。

DALL-E 3はプロンプトの自動書き換えにより「指示通りに描く」精度を上げたモデルだった。GPT-Image-2はその軸をさらに進めながら、テキスト描画・高密度シーン・編集時の保持精度という三点を大幅に補強した。

廃止予定の5月12日までに移行すれば既存のワークフローへの影響は最小限で済む。DALL-E 3を使っているコードベースであればモデル文字列の変更だけで動作する。

GPT-Image-2は4月21日にリリースされ、DALL-E 2・DALL-E 3の後継として画像生成APIの標準モデルとなった。日本語を含む多言語テキストの正確な描画、高密度シーンの一括生成、編集時の顔・構図保持が主な強化点だ。5月12日のDALL-E廃止までに移行の準備を進めておきたい。