AIに査読を任せた研究者のうち、約400名の論文が一斉に却下されました。機械学習のトップ学会ICML 2026が2026年3月に公表した措置は、AI査読の不正利用に対する過去最大規模の対応です。

この記事でわかること

  • ICML 2026がLLM使用違反でとった具体的な措置の内容
  • 違反をどのような技術で検出したか
  • AI査読が論文のスコアと採択率に与える定量的な影響
  • 学会が直面するAI時代の査読制度の課題

ICML 2026のLLMポリシーと大量却下

ICML 2026は査読におけるLLM利用について、2つのポリシーを設けました。Policy A(保守的)はLLMの使用を一切禁止し、Policy B(許容的)は論文の理解やレビューの推敲目的に限りLLMの使用を認めるものです。査読者は自分でどちらのポリシーに従うかを選択し、明示的に合意しています。

問題が起きたのはPolicy A側です。LLM禁止に同意したはずの査読者506名が、計795件のレビューでLLMを使っていたことが検出されました。これは全査読の約1%にあたります。ICML運営は違反した査読者のうち、指定された相互査読者(reciprocal reviewer)の投稿論文497本を却下しました。全投稿の約2%に相当する数です。

さらに、査読の半数以上でLLM使用が検出された51名の査読者は、全レビューが削除されたうえで査読者プールから除外されています。

PDFへの透かし埋め込みで違反を検出

検出に使われたのは、論文PDFに隠しプロンプトを埋め込む手法です。Rao、Kumar、Lakkaraju、Shahらの研究(参考)をもとに設計されています。

仕組みはこうです。まず17万フレーズの辞書を用意し、各論文に対して2つのフレーズをランダムに選びます。選ばれた組み合わせの確率は100億分の1未満です。このフレーズを含むよう指示する隠しプロンプトをPDFに埋め込みます。人間がPDFを読んでも見えませんが、LLMがPDFを読み込むと指示として認識します。

査読にLLMを使い、その出力をそのまま貼り付けた場合、指定されたフレーズがレビューに含まれます。運営側はフレーズの一致を確認するだけで違反を特定できます。すべてのフラグは人間が手作業で検証し、誤検出を排除しました。ICML運営によると、誤検出の確率(family-wise error rate)は0.0001です。

ただし、この手法には限界があります。査読者が透かしに気づいて除去したり、LLMの出力を大幅に書き換えた場合は検出できません。ICML自身も「最も不注意なLLM使用しか捕捉できない可能性がある」と認めています。検出率は主要なフロンティアモデルで80%以上でしたが、PDFの読み取り方法によってばらつきがありました。

AI査読はスコアを押し上げる

AI査読の問題は不正利用だけではありません。スイス連邦工科大学ローザンヌ校(EPFL)の研究チームが2024年5月に発表した論文「The AI Review Lottery」は、AI支援の査読が論文の評価を体系的に歪めていることを定量的に示しました(参考)。

研究対象はICLR 2024に投稿された7,404件の論文と28,028件のレビューです。GPTZeroによる検出の結果、少なくとも15.8%の査読がLLMの支援を受けていました。

注目すべきは、同じ論文に対するAI支援レビューと人間レビューのスコア比較です。スコアが異なるペアのうち53.4%で、AI支援レビューのほうが高いスコアをつけていました(p=0.002、相対差+14.4%)。AI査読は人間より甘い評価を出す傾向があるということです。

影響は採択率にも及びます。採択ラインぎりぎりの論文を対象にしたマッチング研究では、AI支援の査読を受けた論文は受けなかった論文と比べて採択率が4.9ポイント高くなっていました(p=0.024)。統計的に有意な差です。

検出と制度設計のジレンマ

ICML 2026の対応は、学会が査読の信頼性を守るために踏み込んだ判断をしたことを意味します。しかし、透かし手法の公開後は回避が容易になるため、同じ方法が今後も通用する保証はありません。

根本的な課題は2つあります。1つはAI査読の検出精度の限界です。汎用的なAIテキスト検出ツールの信頼性はまだ低く、ICML 2026もGPTZeroのような汎用検出器ではなく、透かし方式を採用しました。検出手法が公開されれば回避策も広まるため、いたちごっこになる構造です。

もう1つは、AI査読がスコアを押し上げるというバイアスの問題です。査読者がLLMを使うこと自体を禁止しても、Policy Bのように許可された範囲でLLMが使われれば、同様のバイアスが入り込む余地があります。EPFLの研究が示したスコアの歪みは、LLMの使用を「許可するかどうか」だけでは解決しない問題です。

学会の査読制度はすでに査読者不足や査読疲れといった構造的な問題を抱えています。AIの利用を全面禁止すれば負担はさらに増え、全面許可すれば評価の公平性が損なわれます。ICML 2026の二段階ポリシーはその中間を探る試みですが、Policy A違反者が全体の1%に達した事実は、合意だけでは行動を制御できないことを示しています。

AI査読の活用と規制のバランスは、2026年以降の学会運営における最大の課題の1つになりそうです。