GPT-5.5 Matharena総合1位偽定理の検知率が2倍になった

AIの数学力は、競技数学での正確さだけで測れない時代になりました。

OpenAIが2026年4月23日にリリースした「GPT-5.5」が、LLMの数学能力を汚染なし問題で評価するベンチマーク「Matharena」で総合1位を獲得しました。前バージョンのGPT-5.4から全体スコアが73.6%→84.3%に伸び、特に「偽の数学的主張を見抜く」テストでは36.61%→73.66%と約2倍の改善を記録しています。

この記事でわかること：

Matharenaとは何か、なぜ汚染されにくいのか
GPT-5.5がGPT-5.4から大きく改善した具体的なベンチマーク
BrokenArxivとApexという2つのフロンティア評価の意味
GPT-5.5が後退したベンチマークと、その解釈の仕方
料金と利用条件

MathArena.ai

MathArena: Evaluating LLMs on Uncontaminated Math Benchmarks

matharena.ai

Matharenaとは

Matharenaは、ETHチューリッヒのSRI LabとINSAITが運営する数学ベンチマークプラットフォームです。他のベンチマークとの最大の違いは「汚染対策」にあります。

一般的なベンチマークは問題が公開されているため、LLMが学習データにその解答を含んでいる可能性があります。Matharenaは毎月の新しいArXiv論文や未発表の数学競技問題を使い、モデルが訓練時に見ていない問題だけで評価します。スコアが高いモデルは、過去の解答を暗記しているのではなく、本当に推論していると判断できます。

評価カテゴリは5種類あります。AIME・HMMTのような最終答案を求める競技数学、視覚的な数学問題、証明ベースのUSAMO形式、そして最近追加されたArXivMath（研究論文から抽出した問題）とBrokenArxiv（故意に誤りを含む命題）です。

GPT-5.5のMatharenaスコア

GPT-5.5はMatharenaの総合期待スコア84.3%を記録し、現在9モデル中1位です。前バージョンGPT-5.4は73.6%で3位でした。

主なベンチマーク別の変化は以下のとおりです。

ベンチマーク	GPT-5.4	GPT-5.5	変化
BrokenArxiv 03/2026	36.61% (2位/10)	73.66% (1位/10)	+37pp
Apex	54.17% (4位/41)	80.21% (1位/41)	+26pp
ArXivMath 総合	67.02% (2位/10)	74.12% (1位/10)	+7pp
HMMT Feb 2026	97.73% (1位)	97.73% (1位)	変化なし
AIME 2026	99.17% (1位)	97.50% (4位)	-1.67pp

大幅改善の内訳：BrokenArxivとApex

最も注目すべき改善がBrokenArxivです。

BrokenArxivは「もっともらしいが証明不能な偽の数学的命題」を解かせるテストです。最近のArXiv論文から正しい命題を抽出し、それをわずかに変形して矛盾を含む命題を作ります。モデルが「この命題は正しくない」と指摘できれば成功、そのまま証明しようとすれば失敗です。

GPT-5.4は03/2026版で36.61%でした。つまり約63%の問題で、嘘の命題に引っかかって証明を試みていた計算になります。GPT-5.5はこれを73.66%まで引き上げ、誤答率を大幅に下げました。

研究者が確認する時間を節約し、誤った前提で計算を進めるリスクを減らす点で、この改善はコーディング精度の向上とは質の異なる意味を持ちます（参考）。

もう一つの大きな改善がApexです。Apexは2025年の各種競技数学から選ばれた問題で構成され、GPT-5やGemini-2.5-Proなどトップモデルがいずれも苦手とする問題を意図的に集めた評価です。GPT-5.4の54.17%に対し、GPT-5.5は80.21%を記録し、41モデル中1位になりました。

後退したベンチマーク：AIME 2026

注意が必要な点もあります。AIME 2026ではGPT-5.4が99.17%（1位）だったのに対し、GPT-5.5は97.50%（4位）でわずかに低下しています。

Matharenaは「AIME・HMMTのような競技数学はすでに飽和状態に近い」と述べており、多くのトップモデルが97〜99%帯に密集しています。この差は測定誤差の範囲内である可能性が高く、GPT-5.5の推論力が後退したと断言するには根拠が不足しています。

料金と利用条件

GPT-5.5のAPI料金は入力$5・出力$30（100万トークンあたり）で、Matharenaの測定によれば1問あたりの平均コストは約$1.26です。GPT-5.4の平均$1.44と比較するとわずかに安く、性能向上とコスト削減が同時に実現しています。

ChatGPTではPlus・Pro・Business・Enterpriseプランで利用可能です。コーディングアシスタントのCodexでも対応済みで、2026年4月24日からAPIが開放されました。

まとめ

GPT-5.5がMatharenaで示した最大の変化は、競技数学の正答率よりも「おかしい命題を見抜く力」と「極限的な難問への対応力」の向上です。BrokenArxivで36.61%から73.66%という跳躍は、モデルが問題の前提を疑わずに証明へ走る傾向が大幅に改善したことを意味します。数学的な信頼性という観点で、GPT-5.5は明確に前世代を超えています。