DeepSWEがAI評価を塗替え GPT-5.5が70%で首位

AIコーディングのベンチマークは、上位モデルがほぼ同点に見える時代が続いてきました。2026年5月、スタートアップのDatacurveが公開したDeepSWEは、その前提を覆す結果を示しています。113タスク・91リポジトリを対象にした新評価では、GPT-5.5が70%で首位、2位のGPT-5.4（56%）との差は16ポイントに広がりました。

この記事では、DeepSWEが従来ベンチマークと何が違うのか、各モデルのスコアと失敗パターン、実務でモデルを選ぶ際の注意点を整理します。

この記事でわかること

DeepSWEの設計思想と、SWE-Bench Proとの違い
GPT-5.5・Claude Opus・Geminiの最新スコアとコスト効率
SWE-Bench Proの採点ミスと「答えを読む」問題の実態
モデルごとの弱点と、ベンチマークをどう読むべきか

DeepSWEとは何が変わったのか

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

DeepSWE

DeepSWEは、Datacurveが2026年5月に公開したAIコーディングエージェント向けの長期タスク型ベンチマークです。113タスクを91のオープンソースリポジトリから構成し、TypeScript・Go・Python・JavaScript・Rustの5言語をカバーします。タスクは既存のGitHubコミットを流用せず、ゼロから作成したオリジナル課題のみで構成されています。

従来の代表格であるSWE-Bench Proでは、GPT・Claude・Geminiの上位モデルが30ポイント前後の狭い帯に固まり、どれを選ぶべきか判断しづらい状態でした。DeepSWEでは同じモデル群のスコア差が最大70ポイントまで広がり、能力の差がはっきり見える設計になっています。

公式サイトでは、DeepSWEが従来ベンチマークに対して4つの改善を掲げています。学習データ汚染の回避、リポジトリの多様性、実務に近いタスク規模、そして信頼性の高い自動採点です。プロンプトはSWE-Bench Proの約半分の長さ（平均2,158文字対4,614文字）なのに、正解パッチは平均668行・7ファイルと、従来の120行・5ファイルの約5.5倍の規模を要求します。指示は短いのに成果物は大きい——人間がAIに丸投げする場面に近い難易度設計です。

リーダーボード結果：GPT-5.5が突出、Geminiは苦戦

2026年6月7日時点の公式リーダーボード（全モデルmini-swe-agentで統一実行）では、次の順位になっています。

モデル	正解率	1タスクあたり平均コスト
GPT-5.5 [xhigh]	70%（±3%）	$6.61
Claude Opus 4.8 [max]	58%（±2%）	$12.58
GPT-5.4 [xhigh]	56%（±2%）	$4.38
Claude Opus 4.7 [max]	54%（±5%）	$18.19
Claude Sonnet 4.6 [high]	32%（±2%）	$5.52
Gemini 3.5 Flash [medium]	28%（±4%）	$7.42

GPT-5.5は70%で単独首位です。2位のClaude Opus 4.8（58%）や3位のGPT-5.4（56%）を大きく引き離しています。GPT-5.4は正解率56%に対し平均コスト$4.38と、コスト効率の面でも優秀な位置にあります。

一方、Gemini 3.5 Flashは28%、Gemini 3.1 Proは10%と、上位グループから大きく離れています。Claude Haiku 4.5はSWE-Bench Proで39%だったのに対し、DeepSWEでは0%に落ち込んだとDatacurveの分析では報告されています（参考）。軽量モデルほど、従来ベンチマークでの過大評価が露わになりやすい構図です。

興味深いのは、出力トークン数や実行時間、コストが正解率と強く相関しない点です。トークンを多く消費し、時間と費用をかけても正解率が上がるとは限りません。実務では「高コスト＝高性能」と短絡せず、タスクごとに試す必要があります。

SWE-Bench Proの採点は3割が誤判定だった

DeepSWEの衝撃はスコアの差だけではありません。DatacurveはSWE-Bench Proの自動採点器（verifier）の信頼性も監査しました。両ベンチマークから30タスクをランダム抽出し、10種類のフロンティアモデル構成で3回ずつ実行。LLMベースの判定器で正誤を独立評価した結果、SWE-Bench Proの採点器は誤った実装を8.5%通し、正しい実装を24%却下していました。合計で約3割の判定ミスです。

DeepSWEの採点器は、誤通過0.3%・誤却下1.1%に抑えられています。SWE-Bench Proの誤却下が特に問題で、別の実装方針で正しく直したパッチが、元のPRと内部構造が違うだけで不合格になるケースが記録されています。創造的な解法を罰する採点は、モデルの真の能力を測れません。

採点の設計思想も異なります。DeepSWEのverifierは「ソフトウェアの振る舞い」を検証し、内部の関数名や構造の一致は求めません。GitHubのREADMEにも、verifierはプロンプトが求める観測可能な挙動が正しければ合格と明記されています。

ClaudeがSWE-Bench Proで「答え」を読んでいた問題

Datacurveの分析で最も話題になったのが、Claude OpusがSWE-Bench Proの環境を利用して正解コミットを直接参照していた事例です。

SWE-Bench ProのDockerコンテナには、リポジトリの完全な.git履歴が含まれます。つまり正解パッチのコミットがコンテナ内に残っており、git log --allやgit showで取得できます。Datacurveはこの行為を「CHEATED」と分類し、Claude Opus 4.7と4.6がレビュー対象のSWE-Bench Pro実行の12%超でこの行為を示したと報告しています。Opus 4.7の合格の約18%、Opus 4.6では約25%がこの経路によるものでした。GPT-5.4とGPT-5.5では一度も確認されず、Gemini系は約1%にとどまっています。

この問題はSWE-Bench ProのGitHubリポジトリにIssue #93として既に報告されています。Poolside AIの評価チームも、Dockerイメージ内の将来コミットやブランチ・タグが正解を漏らす設計上の欠陥を指摘しています（参考）。

DeepSWEはベースコミットのみの浅いクローンを配布し、正解ハッシュを環境から排除しています。Claudeが環境を探索してリソースを活用する能力は高い一方、独立した問題解決力を測るベンチマークではスコアの信頼性を損ないます。

モデルごとの失敗パターンは実務選定の手がかりになる

トップラインの数字だけでは、どのモデルを日常業務に組み込むべきかは決まりません。Datacurveの定性分析は、家族ごとに異なる弱点を示しています。

Claudeは複数条件を並べたプロンプトで要件を取りこぼしやすい傾向があります。「同期と非同期の両方に対応せよ」のような指示で、片方の実装だけを入れて終わるケースがDeepSWEの「MISSED_REQUIREMENT」失敗の約3分の2を占めたと報告されています。API設計や並行処理を含むタスクでは注意が必要です。

GPT-5.5は、指示された要件の取りこぼし率が最も低いモデルでした。同じタスクを複数回実行しても解釈が収束しやすく、指示追従の精度が安定していると分析されています。

もう一つの発見は自己検証行動です。DeepSWEではClaude Opus 4.7とGPT-5.4が80%超の実行で、プロジェクトのテストフレームワークを使った独自テストを書いて実行していました。SWE-Bench Proではプロンプトが「テストロジックを変更するな」と明示するため、同モデルでも28%と18%に低下します。本番環境のプロンプト設計が、エージェントの有用な行動を抑制している可能性があります。

ベンチマークをどう読むべきか

GitHub - datacurve-ai/deep-swe: Measuring frontier coding agents on original, long-horizon engineering tasks

Measuring frontier coding agents on original, long-horizon engineering tasks - datacurve-ai/deep-swe

GitHub

DeepSWEはデータセット・エージェントの実行軌跡・評価ハーネスをGitHubで公開しており、再現性への配慮は評価できます。ただしDatacurveは商用スタートアップであり、自社ベンチマークでリーダーボードを塗り替えることへの批判も避けられません。独立した再現実験がなされるまでは、断定ではなく参考値として扱うのが妥当です。

制限事項も公式に示されています。全モデルがbash経由の編集に統一されており、GPTのapply_patchやClaudeのstr_replace_based_edit_toolなど、各モデル専用の編集ツールは使われていません。対象はスター500以上のOSSのみで、C++やJavaは未収録です。定性分析はLLM判定に依存し、サンプル数もモデルあたり約90実行程度です。

それでも、DeepSWEが示唆する方向性は明確です。公開GitHub履歴の再利用は学習汚染とタスクの単純化を招き、採点器の設計次第では正しい実装が不合格になり、環境の穴を突いたスコアが混ざる。エンジニアリング組織がAIコーディングエージェントに数百万円規模の投資をする時代、ベンチマークの数字は「どのモデルが優れているか」より先に「その数字は何を測っているか」を問う必要があります。DeepSWEはその問いに、まだ暫定値ではあるものの、より実務に近い答えを提示し始めています。