AIの「コーディング力」を測る指標が増え続けている。だが既存のベンチマークでは頭打ちが続き、本当の実力差が見えにくくなっている。Sakana AIが運営するALE-Benchは、AtCoderのヒューリスティックコンテスト問題を使った長時間最適化ベンチマークで、そこに顕著な格差が現れた。
この記事でわかること:
- ALE-Benchとは何か、なぜ難しいのか
- 2026年4月26日の最新リーダーボードで何が変わったか
- GPT-5.5-xhighが首位に立った背景
- DeepSeek・GLM・MiniMax・Qwenの現在の序列
ALE-Benchとは何か
Sakana AIがAtCoder株式会社と共同で開発したALE-Bench(ALgorithm Engineering Benchmark)は、AIのアルゴリズムエンジニアリング能力を測るベンチマークです。物流の配送経路最適化、工場の生産計画といった「組合せ最適化問題」40問で構成されています。
これらはNP困難と呼ばれる、計算量的に最適解を求めることが現実的に不可能な問題です。全組合せを調べると数が天文学的な数に膨れ上がるため、焼きなまし法などのヒューリスティックなアルゴリズムで少しでも高いスコアを目指すことになります。
従来の「正解/不正解」型ベンチマークと根本的に異なる点は、スコアを反復的に改善し続ける能力を評価することです。4時間にわたって試行錯誤を繰り返し、スコアを積み上げる長時間推論が問われます。
2025年5月には同ベンチマークをもとに開発されたエージェント「ALE-Agent」が、AtCoderのリアルタイムコンテストに参加し1000人超の参加者の中で21位を達成しています。
最新リーダーボードの変化(2026年4月26日更新)
2026年4月26日に更新されたリーダーボードで、GPT-5.5-xhigh(OpenAI)が初めてトップの座についた。同モデルの平均パフォーマンススコアは1943ポイントで、2位のGPT-5.3-Codex-xhigh(1655)を大きく引き離しています。
| モデル | パフォーマンス(平均) | 平均順位 |
|---|---|---|
| GPT-5.5-xhigh | 1943 | 174.5 |
| GPT-5.3-Codex-xhigh | 1655 | 260.9 |
| GPT-5.5-medium | 1589 | 277.4 |
| GPT-5.4-high | 1607 | 290.3 |
| GPT-5.2-Codex-xhigh | 1300 | 406.9 |
| GLM-5.1 | 887 | 613.4 |
| DeepSeek-V4 Flash (high) | 678 | 694.8 |
| MiniMax M2.5 | 618 | 718.1 |
| Qwen3.5-397b | 622 | 714.0 |
平均順位は低い数値ほど良い結果を示す。AtCoderコンテストの参加者全体の中で何位相当の解を提出できるかを示す指標です。
GPT-5.5-xhighが頭抜けた背景
GPT-5.5はOpenAIが2026年4月23日にリリースした完全再設計のモデルです。エージェント向けのコーディング性能に力点が置かれており、長時間かつ複雑なタスクへの対応が強化されています。Terminal-Bench 2.0では82.7%という精度を記録しています。
ALE-Benchにおけるスコア1943は、一般モデルの中で最高値です。短期コンテスト(1日以内)に限定した評価でも平均順位117.2で首位を維持しており、短時間での反復改善に強みを発揮しています。
Sakana AIの分析では、人間のコンテスト参加者が4時間で行う修正が多くて十数回であるのに対し、AIは100回前後の修正が可能です。さらに並列実行により数百から千を超える候補解を生成できる。この反復速度の差がAIの強みであり、GPT-5.5-xhighはその能力をさらに引き上げた形です。
DeepSeek・MiniMax・Qwenの位置関係
中国系モデルの中ではDeepSeek-V4 Flash(high推論モード)が最も高いスコアを記録し、平均パフォーマンス678、平均順位694.8です。MiniMax M2.5(618)とQwen3.5-397b(622)はほぼ横並びで、DeepSeek-V4 Flashが両者を上回っています。
ただし、いずれもGPT-5.5-xhigh(1943)との差は大きく、現時点のリーダーボード上では上位5モデルがOpenAI系とGeminiで占められています。
GLM-5.1(Zhipu AI)は887を記録し、中国系モデルの中で唯一800点台超えを達成しました。GPT-5.2-Codex-xhigh(1300)とはまだ差があるものの、下位モデルとは明確な差が生じており、一定の評価ができる水準です。
ALE-Benchが問う「反復推論」の壁
既存のSWE-BenchやLiveCodeBenchは「バグを直す」「問題を解く」という1回完結型のタスクを評価します。一方ALE-Benchは、正解が存在しない問題に対して何度も試行錯誤しながらスコアを積み上げる能力を問います。
ALE-Agentの研究では、短期コンテストでAIが上位に食い込む一方、2週間制の長期コンテストや焼きなまし法が有効でない問題では苦戦することが明らかになっています。バグの検出・修正、計算量解析、実験的な試行錯誤への対応が課題として残ります。
GPT-5.5-xhighが短期コンテストで強みを発揮している反面、長期コンテストでの性能がどこまで向上しているかはリーダーボードの継続的な更新を見る必要があります。
まとめ
Sakana AIのALE-Bench最新リーダーボード(2026年4月26日更新)では、GPT-5.5-xhighが平均スコア1943で首位に立ち、新たなSOTAを記録しました。DeepSeek-V4 FlashはMiniMaxやQwenを上回る結果を出したものの、上位モデルとの差は依然として大きい状況です。
組合せ最適化という「正解のない問題」を反復的に解く能力は、物流・工場・電力網など実社会への応用に直結します。ALE-Benchはその指標として、モデル評価の重要な軸になっています。
