AIは数学の「答え合わせ機」から「研究パートナー」へと変わりつつある。

2026年5月7日、Google DeepMindが「AI Co-Mathematician(AI共同数学者)」を論文で発表した。数学者がAIエージェントと共同で未解決問題に取り組むためのマルチエージェントワークベンチで、最難関ベンチマーク「FrontierMath Tier 4」で48%を達成し、全AIシステム中最高スコアを記録した。

この記事でわかること

  • AI共同数学者が解決しようとしている課題
  • 複数エージェントが連携する内部アーキテクチャ
  • 実際の数学者が使った結果と評価
  • FrontierMath Tier 4での他モデルとの比較
  • 現在のリリース状況と限界

https://arxiv.org/abs/2605.06651

「質問に答えるAI」では研究は進まない

数学の研究は、試行錯誤の連続だ。証明の試み、文献の精査、失敗の記録、仮説の再構築——これらは線形に進むのではなく、並行して、そして断続的に動く。

これまでのAIはこの非線形な研究プロセスに対応できなかった。問いを投げると答えが返ってくる。しかしセッションをまたいで文脈を保持し、「なぜこの方向は行き詰まったか」を記憶しながら次の手を考える仕組みは存在しなかった。

AI共同数学者はこの問題に直接応える。非同期かつ状態保持型のワークスペースとして設計されており、失敗した仮説の追跡、未解決の不確実性の管理、研究の進捗を随時確認できる中間レポートの出力など、実際の数学研究のリズムに合わせた設計になっている。

複数エージェントが並列で研究を進める構造

システムの中核は、階層的なマルチエージェント構成だ。

「プロジェクトコーディネーター」と呼ばれる上位エージェントが全体を管理し、複数の「ワークストリーム」を並列で走らせる。各ワークストリームは独立した研究の方向性を持ち、以下の流れで動く。

  1. Generator — 証明の候補ステップを提案する
  2. Verifier — 候補の論理的な欠陥を検出する
  3. Reviser — 欠陥を修正して候補を更新する

Verifierが「重大な欠陥あり」と判断した場合、Generatorに戻って証明を作り直す。「軽微な修正が必要」なら、Reviserが調整して次へ進む。このサイクルが繰り返されることで、精度の高い証明ステップが積み上げられる。

各ワークストリームは最終的にLaTeX形式の完成レポートを生成し、外部文献の参照やマージン注釈も含めて出力する。文献検索にはGoogle検索が組み込まれており、架空の引用(いわゆる「ハルシネーション」)を抑制する設計になっている。

オックスフォードの数学者が未解決問題を解決

初期テストでは、3人の数学者が実際に問題に取り組んだ。

オックスフォード大学のMarc Lackenby氏は、群論の未解決問題集「Kourovka Notebook」の問題21.10に挑んだ。AIが最初に提出した証明案に対し、レビューエージェントが欠陥を指摘した。その指摘を読んだLackenby氏は、自分ならその欠陥を埋められると気づき、最終的に問題を解決した。

「AIの証明スタイルは、これまで使った中で最も審美的に優れていた」と評価したのは、Semon Rezchikov氏だ。氏はハミルトン系に関する技術的なサブ問題を提示し、Verifierが検証に耐えられる補題を受け取った。同じプロンプトで他のAIシステムは失敗していた。

Gergely Bérczi氏は、Stirling係数と対称冪表現に関する予想の証明を得た。

3人の評価に共通するのは「数学者がドメインに精通しているほど効果が上がる」という点だ。AIが生成する方向性を適切に評価し、次の問いを与えられる人が使うことで、システムは最大限に機能する。

FrontierMath Tier 4で全AI最高スコアを記録

定量的な性能評価では、FrontierMath Tier 4を使った。これはEpoch AIが設計した最難関の数学ベンチマークで、「一部の問題は今後数十年間AIには解けないかもしれない」とされるカテゴリだ。

非公開の48問に対して、AI共同数学者は23問に正解し、48%を達成した。比較として以下の通りだ(参考)。

  • AI共同数学者: 48%
  • GPT-5.5 Pro: 39.6%
  • GPT-5.4 Pro: 37.5%
  • Claude Opus 4.7 / 4.6: 22.9%
  • Gemini 3.1 Pro(単体): 19%

基盤モデルのGemini 3.1 Proが単独では19%なのに対し、マルチエージェント構成により48%まで引き上げられている。並列的な仮説探索、強制的なレビューサイクル、文献検索ツール、コード実行環境の組み合わせが性能向上の要因だ。

一点留意が必要なのは、他システムの評価ではEpoch AIの標準的なエージェントハーネスによるトークン上限が設けられているのに対し、AI共同数学者は呼び出し回数・トークン数に上限を設けずに動かしている点だ。そのため、推論コストは他システムより高くなる。

残っている課題

論文は課題についても率直に記述している。

複数エージェントのレビューサイクルが「reviewer-pleasing bias」を生み出す可能性がある。エージェント同士が互いに納得するよう論理を収束させる結果、外から見てはわからない微妙なエラーが残ることがある。逆に、エージェントが永続的に意見対立に陥る「デスサイクル」も起きうる。初期ユーザーはワークストリームがこの状態に入ったことを見抜き、その出力の重みを下げる方法を習得していった。

数学出版への影響も課題として挙げられている。AIが数十ページの証明案を数分で生成できるようになった場合、査読者の負担が急増する。現行の査読制度はボランティアベースで成り立っており、AI生成コンテンツの増加がこの構造に与える歪みについて、研究コミュニティが意図的に対処する必要があると論文は指摘している。

まとめ

AI共同数学者は、「AIに問題を解かせる」から「AIと一緒に研究する」へのシフトを体現したシステムだ。失敗の記録、並列探索、LaTeX出力までをひとつのワークスペースに統合し、実際の数学者が未解決問題を前進させる手助けをしている。

FrontierMath Tier 4での48%は、単体モデルの限界をマルチエージェント設計で突破できることを示している。現在は限定公開だが、Google DeepMindはより広いアクセスを提供する製品化を検討中だ。