AIエージェントは、1回の応答ではなく数十から数百回のモデル呼び出しを連鎖させます。既存の推論ベンチマークは単発リクエスト前提のため、エージェント基盤の性能を測れませんでした。2026年6月12日、Artificial Analysisが業界初のエージェント向けハードウェアベンチマーク「AA-AgentPerf」(通称 AgentPerf)を公開し、NVIDIAも公式に結果を発表しました。
この記事でわかること
- AgentPerfが測る指標と、従来ベンチマークとの違い
- 実在のコーディング軌跡を使った評価方法
- 初回結果で示されたGB300 NVL72とH200の性能差
- データセンター選定に使える見方
https://artificialanalysis.ai/methodology/agentperf
AgentPerfが埋める空白
チャット型AIの推論は、1回のLLM呼び出しで完結する「短距離走」に近い負荷です。一方、コーディングエージェントはファイル読み込み、コード編集、コマンド実行、結果の確認を繰り返し、目標達成まで走り続けます。NVIDIAの説明では、この違いは加算的ではなく乗算的だとされています。
従来の推論ベンチマークは、固定長の入出力や単発リクエストのスループットを測る設計が中心でした。エージェント特有の長いコンテキストの蓄積、ツール呼び出しの待ち時間、短い出力の連発といった負荷パターンは反映されにくいのが実情です。
AgentPerfは「同時に何体のエージェントを、実用レベルの応答品質を保ったまま動かせるか」を測るベンチマークです。Artificial Analysisは1年以上にわたり推論プロバイダーやアクセラレータ企業と協議し、2026年6月12日に初回結果を公開しました。
何をどう測るのか
AgentPerfは、公開リポジトリの課題解決を題材にした実在のコーディングエージェント軌跡を再生します。軌跡はOpenCodeハーネス上で、DeepSeek V3.2、GLM 4.7、Kimi K2.5といった推論有効なオープンウェイトモデルで生成されています。
1セッションは最大200ターンに及び、入力シーケンス長は約5,000〜131,000トークン、平均は約27,000トークンです。12以上のプログラミング言語が含まれ、Pythonが最も多く、次いでTypeScript、Goが続きます。ツール呼び出し後のCPU処理時間は、実測分布に基づく遅延(中央値約1秒、最大5秒)でシミュレートされ、GPU性能の比較にCPU差が混ざらないよう設計されています。
性能目標は、Artificial AnalysisのサーバーレスAPIベンチマークから導いたサービスレベル目標(SLO)です。DeepSeek V4 Pro(max)では、P25出力速度20トークン/秒・P95初回トークン遅延10秒以下をTier 1、60トークン/秒・5秒以下をTier 2、180トークン/秒・3秒以下をTier 3と定義しています。各TierでSLOを満たす最大同時エージェント数を、指数ランプと二分探索で求めます。
本番で使われる最適化も評価対象に含まれます。KVキャッシュ再利用、投機的デコード、prefill/decodeの分離など、実運用の構成を反映できる点が従来ベンチとの大きな差です。精度検証により、最適化で品質を落としてスコアを稼ぐことも防ぎます。
主要な結果指標は「Agents per Megawatt(メガワットあたりの同時エージェント数)」です。電力制約が強いデータセンターでは、1メガワットあたり何体のエージェントを走らせられるかが実務上の判断軸になります。あわせてアクセラレータあたり、システム全体での正規化値も公開されます。
初回結果が示すこと
初回結果はDeepSeek V4 Proを対象に、NVIDIAとAMDのシステムを単一GPUからラック規模まで計測しています。gpt-oss-120bの結果は続けて公開予定です。
NVIDIA GB300 NVL72は、AgentPerfの全ワークロードで最高性能を記録しました。NVIDIAテクニカルブログによると、SLO設定下でメガワットあたり同時エージェント数は61,400、GPUあたりは57.5です。前世代のH200は同条件でメガワットあたり2,600、GPUあたり1.4で、メガワットあたりの同時エージェント数は最大20倍の差が出ています。SLOが20トークン/秒と60トークン/秒の両方で、GB300 NVL72はH200を大きく上回る結果です。
性能差の要因は、72GPUをNVLinkで結ぶラックスケール構成、MoEモデル向けのCUDAカーネル最適化、TensorRT LLMによる入出力処理の分離など、ハードウェアとソフトウェアの一体設計にあります。Artificial Analysisの分析では、ラック規模の分離推論と世代更新の両方が、計算効率と電力効率の改善に効いているとされています。
AMD MI355XやH200の一部構成は、Artificial Analysis側が構築した設定で計測されています。ベンダー提出の最適化が入ると数値はさらに動く可能性があり、Artificial Analysisも結果は「現時点のスナップショット」として読むよう注意を促しています。
インフラ選定での使い方
AgentPerfの数値は、ピークスループットではなく「ユーザーが許容する応答品質を維持した同時実行数」に直結します。エージェントを本番展開する企業にとって、投資額と電力予算あたりにどれだけのエージェント作業を回せるかが見えるのが価値です。
Baseten、DeepInfra、Together AIといった推論プロバイダーは、すでにNVIDIA Blackwell上でDeepSeek V4 Proなどのエージェント向け推論を提供しています。Cursorのリアルタイム推論はTogether AI経由でBlackwellを使い、DeepInfraは自動車販売向けAIワークフォースPam.aiのエージェント基盤を担っています。
ベンチマークは継続更新型です。ハードウェアベンダーや推論プロバイダーは agentperf@artificialanalysis.ai へ構成を提出でき、結果はローリングで公開されます。今後は100万トークン超の長コンテキスト、ツール実行性能の計測、時間経過による性能推移の追跡も予定されています。
エージェント時代のAI基盤を比較する共通物差しがようやく整い始めました。単発推論の数値だけで容量計画をする時代から、同時エージェント数と電力効率を軸に据える時代へ移行する起点と言えます。