モデルが同じでも結果が違う AIコーディングエージェント評価の新指標

AIコーディングツールを選ぶとき、モデルのスペックだけを比べていませんか？

Artificial Analysisが2026年5月11日に公開した「Coding Agent Index」は、モデル単体ではなく「モデル＋ハーネス」の組み合わせを評価する新しい指標です。

この記事でわかること：

Coding Agent Indexが測定する3つのベンチマーク
なぜモデルが同じでも、ハーネスによって結果が変わるのか
スコア以外に計測している指標（コスト・実行時間・トークン）
実際の選択にどう活用するか

モデルを比べるだけでは足りない理由

AIコーディングツールは「モデル」と「ハーネス」の2層構造で動いています。モデルはClaude OpusやGPT-5.5などのLLMそのもの。ハーネスはClaude Code、Cursor CLIなど、そのモデルを使って実際にコードを操作するシステムです。

これまでのベンチマークの多くはモデル単体の性能を測るものでした。しかし同じClaude Opus 4.7を使っていても、Claude CodeとCursor CLIでは動作戦略が異なります。タスクの分解方法、ツールの呼び出し順、プロンプトキャッシュの使い方まで変わるため、最終的な成果も変わります。

Artificial AnalysisのCoding Agent Indexは、この「モデル＋ハーネス」の組み合わせを丸ごと評価する指標として設計されています。

3つのベンチマークが測るもの

https://artificialanalysis.ai/agents/coding-agents

Coding Agent Indexは3つのベンチマークの平均スコアで構成されています。

SWE-Bench-Pro-Hard-AA（150問、Scale AI作成）は、実際のGitHubリポジトリに対してバグ修正やコード実装を行うタスクです。パッチが正確かどうかをテスト実行で検証するため、「それらしいコード」ではなく「動くコード」を出力できるかが問われます。

Terminal-Bench v2（84問、Laude Institute作成）は、シェル環境でのマルチステップ操作を評価します。コマンドを正しい順序で実行し、ツールを使いながら目標を達成できるかが測定対象です。コード生成能力とは別に、ターミナル操作の実務的な能力を見ます。

SWE-Atlas-QnA（124問、Scale AI作成）は、リポジトリを読んで技術的な質問に答えるタスクです。コードを生成するのではなく「このコードはなぜこう動くか」を正確に説明できるかを評価します。

3つが組み合わさることで、実装力・操作力・理解力という異なる側面を一つの指標にまとめています。

ハーネスを変えると何が変わるか

Coding Agent Indexの特徴的な機能のひとつが「ハーネス比較」です。同じモデル（Claude Opus 4.7）を固定した状態で、Claude CodeとCursor CLIを切り替えてスコアを比較できます。

モデルを固定するとハーネスの設計差だけが浮き彫りになります。プロンプト構成、コンテキストの渡し方、ツール呼び出しの戦略など、ハーネスによるアーキテクチャの違いが最終スコアに直結することがわかります。

同インデックスの計測によると、IDE型エージェント（Cursorなど）はスコアが高い傾向にある一方、コストも高くなりやすいです。CLIツールはコストを抑えられますが平均スコアは低めという傾向が観察されています（参考）。

スコアだけでない3つの計測軸

Coding Agent Indexはスコアに加えて、コスト・実行時間・トークン使用量も計測しています。

タスクあたりのコストは、APIを従量課金で利用した場合の平均費用です。入力トークン、キャッシュトークン、出力トークンをそれぞれのAPIレートで計算しています。サブスクリプション料金ではなく実際のAPIコストを可視化するため、エージェントをAPI経由で運用するチームに特に有用です。

実行時間は、エージェントが1タスクを処理するウォールクロック時間です。モデルの推論待ちだけでなく、ファイル操作やツール呼び出し、シェル実行の待機時間も含まれます。モデルが速くても、ハーネスのワークフローが冗長であれば全体の実行時間は長くなります。

トークン使用量は入力・キャッシュ・出力の内訳で計測されます。キャッシュヒット率はプロバイダーの内部ルーティングによって変動するため、最適化されたベストケースではなく通常の利用環境での実測値が記録されています。

利用時に注意すること

Coding Agent Indexは有用な指標ですが、総合スコアが高いエージェントが自分のユースケースに最適とは限りません。

リポジトリ理解が主なタスクなのか、パッチ生成が中心なのか、ターミナル操作が多いのかによって、3つのベンチマークでの強弱が重要になります。総合スコアが近い2つのエージェントでも、SWE-Atlas-QnAに強いものとTerminal-Bench v2に強いものでは、実際の用途での使い勝手が大きく変わります。

Artificial Analysisは総合指標と個別指標を分けて表示しているため、自分のワークフローに近いベンチマークのスコアを重点的に見る使い方が推奨されています。

まとめ

「モデルの性能＝エージェントの性能」という前提は、コーディングエージェント選びでは成立しません。Artificial Analysis Coding Agent Indexは、モデルとハーネスを組み合わせた単位で実世界に近いタスクを評価し、その差を可視化します。SWE-Bench-Pro-Hard-AA・Terminal-Bench v2・SWE-Atlas-QnAの3ベンチマークと、コスト・実行時間・トークンの3軸で計測されたデータは、エージェント選択の根拠として活用しやすいものになっています。