AI計算力テスト500問の結果正答率トップでも63%の現実

AIチャットボットに「このローンの利息はいくら？」と聞いたら、10問中4問は間違った答えが返ってくる。OmniCalculatorが公開したORCA Benchmarkの結果が、AIの計算能力に対する過信に警鐘を鳴らしています。

この記事でわかること

主要5モデルの計算正答率と分野別の得意・不得意
AIが計算を間違える4つのパターン
用途別にどのAIを選ぶべきかの判断基準

ORCA Benchmarkとは何か

The ORCA Benchmark Evaluates How Well AIs Deal with Everyday Math

Why can't you trust the numbers from your favorite AI chatbot? We put five leading AI models to the test with 500 e…

ORCA（Omni Research on Calculation in AI）Benchmarkは、OmniCalculatorの研究チームが2026年に公開したAI計算能力の評価テストです。数学オリンピックのような高度な問題ではなく、チップの計算、ローンの利息、BMIの算出など日常生活で実際に発生する500問を出題している点が特徴です。

テスト対象は無料で使える5つの主要AIモデルです。ChatGPT-5（OpenAI）、Gemini 2.5 Flash（Google）、Claude Sonnet 4.5（Anthropic）、DeepSeek V3.2（DeepSeek AI）、Grok-4（xAI）の各モデルに、同じ500問を標準的な公開インターフェース経由で出題しました。特殊なプロンプト技法は使わず、一般ユーザーと同じ条件で最初の回答だけを採点しています。

回答の正誤判定はOmniCalculator独自の検証済み計算ツールの結果と照合する方式です。丸め方や単位の違いは考慮しますが、部分点はありません。正解か不正解か、それだけです。

全モデル正答率63%以下という結果

総合正答率の順位は次の通りです。

Gemini 2.5 Flash：63.0%
Grok-4：62.8%
DeepSeek V3.2：52.0%
ChatGPT-5：49.4%
Claude Sonnet 4.5：45.2%

トップのGemini 2.5 Flashでも正答率は63%で、10問出せば約4問は間違えます。ChatGPT-5は半分以下、Claude Sonnet 4.5に至っては45.2%と過半数が不正解でした。

500問は生物・化学、工学・建設、金融・経済、健康・スポーツ、数学・単位変換、物理、統計・確率の7分野に分類されています。分野ごとの成績には大きなばらつきがありました。

金融分野でGrokとGeminiが圧倒的に強い

最も差が開いたのが金融・経済の分野です。GrokとGeminiは70〜80%の正答率を記録した一方、ChatGPT、Claude、DeepSeekは同じ問題で40%を下回りました。ローンや投資、予算計算をAIに任せるなら、モデル選びが結果を大きく左右します。

一方、数学・単位変換の分野では全モデルが60%以上を記録し、Geminiは83%に達しました。純粋な計算問題は比較的得意で、実世界の文脈を理解して正しい公式に落とし込む「応用問題」になると正答率が急落する傾向が共通しています。

物理、健康・スポーツ、生物・化学は全体的に苦手分野で、多くのモデルが50%を下回りました。特にDeepSeek V3.2は生物・化学で10.5%という極端に低い正答率を記録しています。同じ分野でGrok-4は61.4%を出しており、約6倍の差がついています。

AIが計算を間違える4つのパターン

ORCA Benchmarkはエラーの種類も分析しています。全エラーの内訳は大きく4つに分かれます。

丸め・端数処理の誤り（全エラーの35%） が最も多い失敗です。AIは答えに近い数値を出すものの、計算途中で数値を切り捨てたり丸めたりして最終結果がずれます。Grok-4がランナーのVO2 maxを計算した際、正解47.86のところ47.89を出力した例が報告されています。差はわずかですが、計算途中の端数処理が原因です。

単純な計算ミス（33%） も同程度の頻度で発生します。Geminiが帯分数への変換で引き算を間違えた例や、ChatGPT-5が宝くじの確率を組み合わせ計算で大幅に誤った例があります。ChatGPT-5は正解「520,521分の1」に対して「401,397分の1」と回答しました。

公式・手法の誤り（14%） はより根本的な問題です。DeepSeekが六芒星の面積を問われた際、正六角形の公式を適用して正解129.9 cm²に対し21.65 cm²を出力しました。問題を理解はしているものの、適用する数学的手法が間違っています。

前提条件の誤り（12%） も見られます。子犬の成犬時体重を予測する問題で、DeepSeekは生後6週の3kgの子犬を「最終体重の25%」と独自に仮定し、正解57.32ポンドに対して26.32ポンドと回答しました。

残りの5%は問題文の読み違いや回答拒否です。Claudeは回路問題で電流値の適用範囲を誤り、ChatGPT-5は必要なデータがすべて揃っているにもかかわらず「情報不足で解けない」と回答を拒否した例もあります。

なぜAIは「計算が苦手」なのか

根本的な原因は、大規模言語モデル（LLM）のTransformerアーキテクチャにあります。LLMは数値を「量」として扱っているのではなく、テキストのトークン列として処理しています。「2 + 2 =」の後に「4」が来ることを、訓練データのパターンから予測しているだけです。

この仕組みは文章生成には適していますが、正確な数値計算には向いていません。31.874を31.8に丸めることが数学的に誤りだという理解を、モデルは持っていません。パターンマッチングで「それらしい数値」を出力しているため、複雑な計算ほどずれが大きくなります。

さらに問題なのは、AIが間違いに自信を持って回答する点です。「わかりません」とは言わず、論理的に見える説明を添えて誤った数値を提示します。ユーザーが検算しない限り、誤りに気づけません。

文章力ではClaudeが最も高い評価

TechRadarの報道によると、計算力とは別の軸でClaudeが高く評価されています（参考）。Claude 4.6は長文ドキュメントの処理で一貫性を保つ能力や、文章のトーン維持で他モデルを上回ると指摘されています。不確実な点を素直に認める傾向があり、回答が過信的にならない点も評価されています。

計算力ではGeminiとGrokがリードし、文章品質ではClaudeが強い。ChatGPT-5は突出した分野はないものの、分野間のばらつきが比較的小さく安定した成績を残しています。「最も賢いAI」は存在せず、用途によって最適なモデルが変わるというのが現時点での結論です。

AIに計算を任せるときの判断基準

ORCA Benchmarkの結果から導かれる実用的な指針は明確です。AIチャットボットはメールの下書き、概念の説明、アイデア出しには優れていますが、正確な数値が必要な場面では検算が必須です。

金融計算にはGeminiかGrokを使い、それでも結果は電卓や専用ツールで確認する。文章作成や長文の要約にはClaudeを選ぶ。純粋な数学・単位変換であればどのモデルでも比較的信頼できるが、物理や生物学の応用問題では正答率が大きく下がることを前提にする。

AIは「賢いが、ときどき雑なアシスタント」です。数値が意思決定に影響する場面では、必ずAIの回答を検証してください。