LLMの長文理解力は英語が6位 — 26言語ベンチマークONERULERの結果

英語で大量に学習したはずのLLMが、多言語テストでポーランド語に負けた。

メリーランド大学・Microsoft・UMass Amherst の研究チームが開発した多言語ベンチマーク「ONERULER」は、26言語にわたってLLMの長文処理能力を測定し、業界の常識を覆す結果を示しました。

この記事でわかること:

多言語長文ベンチマーク「ONERULER」の概要と評価手法
ポーランド語が1位、英語が6位になった理由
コンテキスト長が伸びるほど言語間の格差が広がる仕組み
「none」選択肢が精度を32%下げる現象
実務的な示唆（プロンプト設計・モデル選定）

ONERULER とは

https://arxiv.org/abs/2503.01996

ONERULER は26言語でLLMの長文処理能力を評価するベンチマークです。2025年3月に arXiv で公開され、同年の COLM 2025（Conference on Language Modeling）で採択されました。著者は Yekyung Kim、Jenna Russell、Marzena Karpinska、Mohit Iyyer の4名です。

従来の評価指標は英語中心でした。ONERULER は英語専用だった RULER ベンチマーク（Hsieh et al., 2024）を拡張し、ネイティブスピーカー協力のもと25言語に翻訳しています。翻訳作業には Upwork で雇用した17名のアノテーターと6名のボランティア（1言語あたり25ドルを支払い）が携わりました。

7つのタスクと4つのコンテキスト長

ONERULER のタスクは「検索」と「集計」の2系統に分かれます。

検索タスク（NIAH バリアント）は、長い文章の中に「特殊な魔法の数字は12345です」といった「針（needle）」文を埋め込み、正確な値を答えさせます。5種類のバリアントがあり、針が1本だけのS-NIAH、複数の異なるキーを持つMK-NIAH、同じキーで複数の値を持つMV-NIAH、1プロンプトで複数クエリを問うMQ-NIAH、そして針が存在しない場合に「none」と答えるNONE-NIAHが含まれます。

集計タスク（CWE — Common Word Extraction）は、長いリストから最も頻度の高い単語10個を抽出させます。頻出語が30回、妨害語が3回登場するeasy版と、頻出語20回・妨害語10回のhard版があります。

評価は 8,000・32,000・64,000・128,000 トークンの4段階で実施されました。対象モデルは Qwen 2.5（7B/72B）、Llama 3.1（8B）、Llama 3.3（70B）、OpenAI の o3-mini-high、Google の Gemini 1.5 Flash の6モデルです。

ポーランド語がトップに立った理由

64,000〜128,000 トークンの長コンテキストでの成績（NIAHタスク平均）では、ポーランド語が全26言語中1位（88%）を記録しました。英語は6位（83.9%）、中国語は4番目に低い62.1%です。

上位10言語の平均精度は以下のとおりです（ppc.land の集計より）。

ポーランド語 — 88.0%
ロシア語 — 86.0%
フランス語 — 85.0%
イタリア語 — 84.0%
スペイン語 — 84.0%
英語 — 83.9%
ウクライナ語 — 83.0%
スウェーデン語 — 82.0%
ポルトガル語 — 81.0%
ドイツ語 — 80.0%

上位はスラブ語派・ロマンス語派・ゲルマン語派のラテン文字圏が独占しています。

ポーランド語が首位に立った要因として研究者は、7格変化や複雑な活用パターンといった高い形態論的複雑性を挙げています。豊富な文法マーカーが長い文脈を通じて情報を追跡する際の手がかりとして機能するためと考えられています。またウィキペディアの記事数が世界9位（約160万件）と多く、高品質な学習データが確保されていた点も寄与しています。

英語が6位にとどまった理由

英語の学習データ量は圧倒的ですが、長コンテキストで6位にとどまった背景にはいくつかの要因があります。英語はスペルと発音の乖離が大きく、格変化・性別語尾・動詞活用が豊富な言語と比べて形態変化が少ない。長文中の文法的手がかりが限られているため、文脈を追う際のシグナルが弱くなると考えられています。

中国語の落ち込みはさらに顕著です。高リソース言語でありながら62.1%と低かった要因として、トークン化の非効率が挙げられています。UNU キャンパスコンピューティングセンターの解説によると、同じタミル語文書でも Gemini のトークナイザでは42,124トークンなのに対し、Qwen のトークナイザでは103,990トークンになるケースがあり、実効的なコンテキスト長が言語・モデルの組み合わせで大きく異なります（参考）。中国語も同様のトークン化の不利を抱えており、ラテン文字圏に偏ったモデル構造も影響していると指摘されています。

低リソース言語との格差が拡大する

8,000 トークンでは上位5言語と下位5言語の精度差は11%でした。これが128,000 トークンになると34%まで拡大します。

下位グループはヒンディー語、セソト語、スワヒリ語、タミル語の4言語です。ヒンディー語は約6億人が話す大規模言語ですが、ウィキペディア記事数が25万件未満のため低リソース言語に分類されています。長コンテキスト拡張の学習データにこれらの言語が十分含まれていないことが、格差拡大の主因と研究者は推測しています。

「none」問題 — 正解があるのに「ない」と答える

NONE-NIAH タスクで「答えが存在しない場合は none と答えてください」という一文を追加したところ、英語の128,000 トークン条件での精度が32%低下しました。モデルが過度に慎重になり、針が明確に存在しているのに「none」と返答し続けるためです。

OpenAI の o3-mini-high でこの傾向が特に顕著でした。高度な推論能力を持つとされながら、128,000 トークンの英語では67%しか正答できませんでした（ポーランド語では92%、ウクライナ語では89%）。

推論モデル特有の逆転現象も確認されています。o3-mini-high は正解した問題より不正解の問題で多くの推論トークンを生成しており、考えすぎが誤りを生む状況です。集計タスクでは出力トークン上限の10,000件を超えるほど冗長な推論を展開し、ほとんどのサンプルで最終回答が出力されませんでした。

集計タスクは全モデルが苦戦

CWE タスクの結果は厳しいものでした。easy設定でも英語の全モデル平均精度は31.5%にとどまります。8,000 トークンでは80%以上を達成したモデルも複数ありましたが、128,000 トークンでは急落します。hard設定はほぼすべてのモデルで精度が0%に近くなりました。

長い文脈にわたって情報を統合・集計する能力が、現状の LLM には根本的に不足しています。単純な頻度カウントという比較的やさしいタスクでさえ、コンテキスト長が伸びると機能しなくなる点は重要な制約です。

指示言語が精度を最大20%動かす

コンテキストと指示文が異なる言語の場合（クロスリンガル設定）、指示言語の選択によって精度が最大20%変動しました。英語コンテキストに韓国語の指示を与えると、64,000 トークン条件での精度は91%から71%に下がります。逆に韓国語コンテキストに英語の指示を与えると、128,000 トークン条件での精度が61%から77%に上昇します。

多言語プロダクトの設計では、コンテキストが何語であれ指示文を英語で書く方が安定した性能を得やすい場合があります。

実務への示唆

モデル選定の観点では、多言語・長文処理が必要なユースケースで最も安定した成績を収めたのは Gemini 1.5 Flash でした。o3-mini-high は短文の高度な推論に向く一方、長文多言語環境では精度が不安定です。

プロンプト設計では「答えが存在しない場合は none と回答してください」という指示を避けるか、使用する場合は二段階の検証ステップを追加することで over-refusal（過度の回答拒否）を抑えられます。

低リソース言語のユーザーを対象とするサービスでは、コンテキスト長を短く抑えるか、英語指示文と組み合わせることで性能の底上げが期待できます。

まとめ

ONERULER は「英語中心の評価」という従来の枠組みを崩しました。LLMの長文処理能力は、学習データ量だけでなく言語の形態論的構造・文字体系・学習データの質に大きく左右されます。コンテキスト長が伸びるほど言語間格差が開くという事実は、グローバル展開を目指すプロダクトにとって見過ごせません。

論文と評価データは arXiv（2503.01996）で公開されています。