Terminal-Bench 2.0で82.7%を記録し、Anthropicの未公開モデル「Mythos Preview」(82.0%)を抑えてGPT-5.5が首位に立った。AIコーディングツールのClineは同日対応を完了しており、すぐに試せる状態にある。

この記事でわかること:

  • Terminal-Bench 2.0の概要と測定対象
  • GPT-5.5の主要ベンチマークスコアと他モデルとの比較
  • GPT-5.5がGPT-5.4と根本的に何が違うか
  • ClineでのGPT-5.5利用方法と料金

Terminal-Bench 2.0とは何を測るベンチマークか

Terminal-Bench 2.0は、エージェント型AIがターミナル環境でどこまで自律的に動作できるかを測るオープンソースのベンチマークです。

ファイルの読み書き、コマンド実行、エラーからの回復、マルチファイルプロジェクトの管理など89タスクで構成されています。Python・JavaScript・Bash・システム管理をまたぐ複数ステップの作業を、人間の再プロンプトなしに完遂できるかを評価します。

単関数の生成を測るHumanEvalとは根本的に異なります。Terminal-Bench 2.0は「エージェントが現実のターミナル環境で最初から最後まで仕事を終わらせられるか」を問うベンチマークです。このため、コーディングエージェントを実際に使っている開発者にとって意味のあるスコアとして注目されています。

GPT-5.5のTerminal-Bench 2.0スコアと比較表

GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、現時点でのトップスコアです。

モデル Terminal-Bench 2.0
GPT-5.5 82.7%(1位)
Mythos Preview(Anthropic・未公開) 82.0%
GPT-5.4 75.1%
Claude Opus 4.7 69.4%
Gemini 3.1 Pro 68.5%

2位のMythos PreviewはAnthropicが「サイバーセキュリティと安全上の懸念から一般公開を見送っている」と説明しているモデルです(VentureBeat報道)。公開モデルとの比較では、GPT-5.5はOpus 4.7に13ポイントの差をつけています。

ただし、GPT-5.5がすべての指標でトップを取っているわけではありません。SWE-bench Pro(実際のGitHubイシューを修正する能力)ではOpus 4.7が64.3%でGPT-5.5(58.6%)を上回っています。MCP-Atlasのツール活用評価やFinance Agent v1.1でも同様にOpus 4.7が先行しています。GPT-5.5が強いのは「計画して実行するタスク」、Opus 4.7が強いのは「コードベースを理解して修正するタスク」と傾向が分かれています。

GPT-5.4との根本的な違い

OpenAIは2026年4月23日にGPT-5.5をリリースしました。GPT-5.1から5.4は同じベースモデルへの後処理(ポストトレーニング)で改善を重ねたバージョンでしたが、GPT-5.5はGPT-4.5以来初となる完全な再トレーニングモデルです。アーキテクチャ・事前学習コーパス・エージェント指向の学習目標がすべて作り直されています。

主な変更点は4つです。

エージェント型ワークフローの強化:複雑なマルチステップタスクを途中で止まることなく進める能力が大幅に向上しました。ツールを使い、自分の作業を確認し、曖昧さを処理しながら最後まで完遂できます。

トークン効率の改善:同じCodexタスクに必要な出力トークン数が約40%減少しました。APIの単価はGPT-5.4の2倍(入力$5/百万トークン、出力$30/百万トークン)になりましたが、同じ作業に必要なコストは実質約20%増にとどまります。

長コンテキスト性能の向上:1Mトークンの文脈処理能力が大幅に改善されました。長文脈での検索精度を測るMRCR v2スコアは36.6%(GPT-5.4)から74.0%へ倍増しています。

ネイティブなオムニモーダルアーキテクチャ:テキスト・画像・音声・動画を単一アーキテクチャで統合処理します。従来は別コンポーネントを組み合わせていた方式から変更されており、視覚的な推論スコアもコーディングスコアと同時に向上しています。

ClineでGPT-5.5を使う方法

ClineはGPT-5.5リリース当日に対応を完了し、モデルの選択肢に追加しています。

Clineの設定画面でOpenAIプロバイダーを選択し、モデルドロップダウンからgpt-5.5を選ぶだけで利用を開始できます。OpenRouterを経由しても同モデルにアクセスできます。

API経由でClineを使用している場合の料金は以下のとおりです。

モデル 入力 出力
gpt-5.5 $5 / 1Mトークン $30 / 1Mトークン
gpt-5.5-pro $30 / 1Mトークン $180 / 1Mトークン

コンテキストウィンドウはAPIでは1Mトークン、Codex経由では400Kトークンです。

注意点:ハルシネーション率

GPT-5.5には一点注意が必要です。Artificial Analysisの第三者評価(AA-Omniscience)では、GPT-5.5は57%という高い正答率を記録した一方で、ハルシネーション率も86%と記録されています(Opus 4.7は36%、Gemini 3.1 Proは50%)(参考)。

これは「正解を知っているときの精度が高いが、知らないときに自信満々に誤答する傾向が強い」ことを示しています。法律・医療・金融のように事実の正確さが重要な用途では、GPT-5.4やOpus 4.7との比較テストを経てから移行を判断するのが妥当です。エージェント型のターミナルタスクや長コンテキスト処理には強みを発揮しますが、すべての用途で最適というわけではありません。