コーディング・エージェント・本番向け API LLM用途別の選び方

2026年4月、フロンティアLLMは5モデルが数ポイント以内の差で競合している。「どれが最強か」を探し続けるより、自分のユースケースに合ったモデルを選ぶほうが実コストと出力品質に直結する。

この記事でわかること：

SWE-benchなど主要ベンチマークの読み方
コーディング・エージェント・大コンテキストそれぞれの用途別推奨モデル
各モデルのAPI料金と実コスト感
オープンソースモデルの現在地

ベンチマークを正しく読む

モデル選びに使えるベンチマークは複数あるが、まず意味を把握しておく必要がある。

SWE-bench Verified は実際のGitHubイシューをモデルが自律的に解決できるか測る指標だ。コーディングエージェントの実力を測るものとして最も実用的と評価されている。GPQA Diamond は生物学・物理・化学の博士レベル問題を扱い、推論能力の深さを見る。ARC-AGI-2 はトレーニングデータの暗記が効かない新規推論問題で構成されており、汎化性能の尺度になる。

ラボ側の自己申告ベンチマークを鵜呑みにしないことが重要だ。Vals.aiやLM Councilなど第三者機関の評価を参照すると、実態に即した比較ができる（参考）。

コーディング向け

コーディング性能の最高峰はClaude Opus 4.6で、SWE-bench Verifiedで80.8%を達成している。Claude Code経由で実行すると80.9%とわずかに上がる。MiniMax M2.5が80.2%、Claude Sonnet 4.6が79.6%、Gemini 3.1 Proが78.8%と続く。

多くの開発チームに推奨できるのはClaude Sonnet 4.6だ。Opus比1.2ポイント差の79.6%を、Opusより40%安い料金で使える。Opusは1ポイントの差が収益に直結する本番環境向けに残しておくのが合理的だ。

オープンソース勢では、GLM-5.1が月3ドルのサブスクリプションでClaude Opus 4.6のコーディングスコアの94.6%に達する（参考）。個人開発者や予算の限られたチームにとって、この数字は無視できない。

エージェント・マルチステップタスク向け

推論と計画が求められるエージェントタスクにはGemini 3.1 Proが現時点での最有力候補だ。GPQA Diamondで94.3%、ARC-AGI-2で77.1%（前世代比2倍）を記録しており、入力2ドル・出力12ドル/百万トークンでこの性能を提供している。

GPT-5.4のTool Search機能は、プロンプトを肥大化させずにツール定義を動的に読み込む設計で、複雑なエージェントシステムに実際の効率向上をもたらす。ツールが多数あるパイプラインで特に効果が出る機能だ。

Claude Opus 4.6のAdaptive Thinkingモードはユーザー設定なしに深い推論が必要なタイミングを自律判断する。本番デプロイ時のUX面での優位性がある。

大コンテキスト向け

コードベース全体や大量のドキュメントを一度に処理したい場合、Llama 4 Scoutの1000万トークンコンテキストが際立つ。オープンウェイトモデルの中では最大規模だ。17Bのアクティブパラメーターで動くため、アクセスしやすいハードウェアでも動作する。

商用で低コストに大コンテキストを使いたければGemini 3.1 Flash Liteが選択肢に入る。100万トークンを0.25ドル/百万で提供しており、大規模なドキュメント処理や企業向けワークフローのコスト計算が立てやすい。

バジェット重視・高ボリューム向け

コスト最優先なら3つの選択肢が有力だ。

DeepSeek V3.2は入力0.28ドル・出力0.42ドル/百万トークンで、GPT-5.4の約90%の品質を1/50のコストで出す。高ボリュームのバックエンド処理や初期プロトタイピングで大きくコストを抑えられる。Qwen 3.5 9Bは0.10ドル/百万という最安クラスでありながら、GPQA Diamondで81.7%を記録しており、パラメーター数が13倍の大型モデルを複数のベンチマークで上回る。Apache 2.0ライセンスで商用利用も自由だ。GLM-5.1は月3ドルのサブスクリプションで、高頻度コーディングタスクを安価に回したいチームの起点として機能する。

主要モデルの料金一覧

モデル	入力（/百万）	出力（/百万）
Claude Opus 4.6	$5	$25
Claude Sonnet 4.6	$3	$15
GPT-5.4 Standard	$2.50	$15
GPT-5.5	$5	$30
Gemini 3.1 Pro	$2	$12
MiniMax M2.5	$0.30	$1.20
DeepSeek V3.2	$0.28	$0.42
Qwen 3.5 9B	$0.10	—
GLM-5.1	月$3（サブスク）	—

GPT-5.5はGPT-5.4より40%安いと発表されたが、最新の料金では入力5ドル・出力30ドル/百万トークンとフロンティアモデルの中でも最高水準に位置する。Gemini 3.1 Proは前世代から値上げなしに性能を大幅に引き上げた点で、価格性能比の面で特異な存在だ。

オープンソースの現在地

2025年時点では「クローズドモデルより2年遅れ」と評されていたオープンソース勢が、SWE-bench VerifiedでClaude Opus 4.6に3ポイント差まで迫ってきた（GLM-5: 77.8% vs Claude Opus 4.6: 80.8%）。Kimi K2がSWE-rebenchのオープンソースPass@1でトップに立ち、DeepSeek V3.2はGPT-5.4品質の90%を1/50のコストで実現している。

残るクローズドモデルの優位性は、安全性チューニングの安定性・マルチモーダルの成熟度・長期モデル提供保証に絞られてきている。予算が限られるチームにとって、まずオープンソースで始めて性能差が問題になった部分だけクローズドへ切り替えるアプローチが現実的な選択肢になっている。

用途別の推奨まとめ

モデル間の性能差は縮まりつつあるが、用途・予算・コンテキスト量の3軸で絞り込むことで判断はシンプルになる。

コーディングにはClaude Sonnet 4.6（コスト効率重視）かClaude Opus 4.6（品質最優先）、個人・小規模チームにはGLM-5.1が現実的な出発点だ。推論重視のエージェントにはGemini 3.1 Pro、長大なコンテキスト処理が必要ならLlama 4 Scoutかgemini Flash Lite、高ボリューム・低コストが最優先ならDeepSeek V3.2またはQwen 3.5 9Bから試すのが効率的だ。