「AIはテキストしか扱えない」という前提が、Minecraft風ベンチマークによって崩れつつあります。OpenAIのGPT-5.5が、AIの空間推論能力を人間の目で評価するVoxelBenchで初めてEloスコア2000点を超え、新たな基準点を打ち立てました。
この記事でわかること:
- VoxelBenchとは何か、なぜ既存のベンチマークと違うのか
- GPT-5.5がトップに立った背景と評価の仕組み
- 空間推論の向上が現実の職場に何をもたらすか
- GPT-5.5の他の主要ベンチマーク成績と料金
VoxelBenchが問うのは「3D空間で考える力」
2026年のAIベンチマーク環境では、MMLU・HumanEval・GSM8Kといった定番テストはすでに飽和状態にあります。最上位モデルが軒並み高得点を取るため、モデル間の差が見えにくくなっています。
VoxelBench(実装はMineBench)はその突破口として注目されています。仕組みはシンプルで、モデルが「中世の城を建てろ」といった自然言語プロンプトを受け取り、ブロックの3D座標をJSONとして出力します。画像生成や3Dツールは一切使いません。モデルは頭の中でジオメトリを構成し、素材を選び、数千の正確な座標を数値で出力しなければなりません。
生成された構造物は3Dレンダリングされ、人間の投票者が頭合わせで優劣を判定します。Glicko方式のEloシステムで順位が決まるため、「自動化された指標への過適合」が起こりにくい設計です。VoxelCodeBenchの研究によれば、220のvoxel構築タスクを通じて、実行可能なコードを書くよりも空間的に正確な出力を生成する方がはるかに難しいことが示されています(参考)。
GPT-5.5がxHighティアでトップに到達
GPT-5.5は最高計算量の「xHigh」ティアでVoxelBenchのEloスコア2000点を初めて突破し、リーダーボードの頂点に立ちました。ただし、単独首位ではありません。Grok 4.20 Beta・Kimi K2.5 Thinking・Kimi K2.6が同じクラスターに集まっており、フロンティアが特定ラボの独占ではなくなっていることをここでも確認できます。Kimi K2.6はMoonshot AIのオープンウェイトモデルで、同週にArtificial Analysis Intelligence Indexでもトップに並んでいます。
MineBenchのEloは、スキルのある人間Minecraftビルダーを基準に較正されています。フロンティアモデルがその基準を超えた時、「AIはコードを書ける」から「AIは空間を考えられる」への移行が、実測で証明されたことになります。
空間推論が開く現実の職場
この能力向上は、ゲームの話に留まりません。建築・都市計画・製品設計・ゲーム開発・外科シミュレーションは、いずれも不完全な言語入力から3D空間を推論する能力を必要とする職域です。これらの分野では「人間の直感は置き換えられない」という前提が最も長く保たれてきました。
VoxelBenchの結果は、ボトルネックがモデルの能力からインフラへと移行しつつあることを示しています。3Dエディタ・ゲームエンジン・設計プラットフォームへの構造化空間出力の組み込みは「できるかどうか」ではなく「どう統合するか」の問題になっています。
GPT-5.5の全体像
GPT-5.5は2026年4月23日にリリースされ、ChatGPT(Plus・Pro・Business・Enterprise)とCodexで利用可能です。コンテキストウィンドウは100万トークンで、API料金は入力$5・出力$30(1Mトークンあたり)。Pro版は入力$30・出力$180です。
主なベンチマーク成績は以下の通りです。
| ベンチマーク | GPT-5.5 | GPT-5.4 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% |
| SWE-Bench Pro | 58.6% | — |
| OSWorld-Verified | 78.7% | — |
| BixBench(生命情報学) | 80.5% | 74.0% |
| CyberGym | 81.8% | 79.0% |
OpenAIはGPT-5.5がGPT-5.4と同等以上の成果をより少ないトークンで達成すると主張しており、API料金の上昇をトークン消費量の削減で相殺できる可能性があります。Cursor CEOのMichael Truell氏は「GPT-5.5はGPT-5.4より明らかに賢く、複雑な長時間タスクを中断せずにこなす」と評価しています(参考)。
次のフロンティアは統合にある
VoxelBenchで2000点を超えたことは、AIが3D空間を推論できるという能力的な証明です。設計・建築・開発ツールのパイプラインにその能力をつなぐインフラが整えば、AI支援の3D設計ワークフローが実用フェーズに入ります。モデルの性能は証明済みで、残る課題は統合のスピードです。