LLMの推論能力を高める強化学習では、PPOやGRPOによる信頼域制約が広く使われています。ところが従来手法は、すべてのトークンに同じ散度閾値を当てはめており、自回帰生成の構造と噛み合っていませんでした。Tencent HunyuanがarXivで公開したCPPO(Cumulative Prefix-divergence Policy Optimization)は、トークンの位置とprefix driftに応じて散度予算を再配分し、このギャップを埋めます。

この記事でわかること

  • 一律の信頼域がLLM強化学習で生む2つの問題
  • CPPOの位置加重閾値と累積prefix予算の仕組み
  • Qwen3モデル4設定での検証結果と既存手法との差

https://arxiv.org/abs/2606.10968

一律の信頼域が抱える2つの問題

検証可能な報酬を使う強化学習(RLVR)は、数学推論のようなタスクでLLMの性能を引き上げる標準的手法です。モデルは回答を生成し、検証器が正誤をスコア化し、PPOやGRPOの枠組みで方策を更新します。

ここで重要になるのが信頼域(trust region)です。ロールアウト時の方策μから、学習中の方策πが大きく離れると更新が不安定になり、推論精度も落ちます。PPOやGRPOは尤度比のクリッピングでこれを抑え、DPPOはサンプル1件の比ではなく、次トークン分布間の全変動距離(TV divergence)で制約します。

しかしこれらの手法に共通するのは、全トークン位置で同じ閾値δを使う点です。論文では、この一律制約が自回帰生成と2つの点で衝突すると指摘しています。

1つ目は自回帰的不対称性です。LLMは先頭トークンから順に生成するため、序盤の方策ずれは後続すべての条件付き分布を変えます。同じトークン単位の散度でも、位置が早いほど系列全体への影響は大きくなります。一律閾値は序盤のずれを抑えきれず、終盤の探索だけを過剰に制限します。

2つ目は累積prefix driftです。ステップtの状態は、プロンプトとそれまでに生成したトークンからなるprefixです。各トークンが個別には閾値内でも、prefix全体としてはロールアウト方策から大きく乖離していることがあります。一律閾値はこの履歴を見ず、prefixがすでに大きくずれた後でも同じ散度枠を与えてしまいます。

CPPOが再配分する散度予算

https://hunyuan-cppo.github.io/

CPPOは、上記2点に対応する2つの制約を組み合わせたトークンマスクです。損失関数そのものはPPOやGRPOのratio–advantage形式をそのまま使い、DPPOと同じ逐トークン散度を流用します。新しい損失項や推定器は追加しません。

位置加重閾値

まず位置重みwtを導入し、序盤ほど厳しい閾値を課します。実装では線形に減少するスケジュールを使い、wtはwminから1の範囲で変化します。これにより、トークンtの許容散度はDt ≤ δ/wtとなり、残り系列が長い序盤ほど制約が強く、終盤ほど探索の余地が広がります。

論文は有限ホライズンの改善境界を導出し、序盤トークンのずれに付く係数λtが残り長T−tに比例して大きくなることを示しています。位置重みはこの誤差伝播プロファイルに沿って予算を配分する設計です。

累積prefix予算

次にprefix予算δbを導入し、prefix上の加重平均散度を上限で抑えます。prefix内で散度が蓄積すると、以降のトークンに許される有効閾値が下がります。個別トークンが閾値を満たしていても、prefix全体の累積が予算を超えれば更新はマスクされます。

この2制約は単一の可行性判定Itにまとめられ、CPPOマスクMtとしてPPO/GRPO目的関数に組み込まれます。理論面では、一律閾値の改善境界に対し、prefix制約によりより厳しい上限が得られると論じられています。

Qwen3での検証結果

実験はDAPO-Math-17kの約1.7万問で実施し、Qwen3-1.7B、1.7B-Base、8B-Base、30B-A3B-Baseの4設定を対象としました。検証はAIME24、AIME25、AIME26のAvg@16(各問題16回サンプリングした正答率)の平均で評価しています。比較対象はGRPO、MinPRO、CISPO、DPPO、TRM-Max、TRM-Avgです。

CPPOは4設定すべてで最高スコアを記録しました。AIME24/25/26 Avg@16は、1.7Bで31.88%、1.7B-Baseで12.78%、8B-Baseで31.11%、30B-A3B-Baseで54.79%です。2位との差はそれぞれ3.06、0.91、1.39、5.56ポイントでした。

最大の差が出た30B-A3B-Baseは、16kトークンのロールアウトを使う唯一の設定です。系列が長いほど序盤トークンの影響が後続に伝播しやすく、位置別の予算配分の効果が表れやすい条件と論文は説明しています。同条件のDPPO比では、4モデルでそれぞれ+3.69、+1.88、+2.22、+5.56ポイントの改善です。

安定性の差も顕著です。30B-A3B-BaseではCISPOが学習途中で崩壊し、TRM-Maxは20.27%まで低下しました。CPPOはこれらの設定でも学習を維持し、検証曲線でもDPPOとの差が訓練後半に広がる傾向が報告されています。

位置重みとprefix予算はどちらも効く

Qwen3-1.7Bでのアブレーションでは、位置重みのみ、prefix予算のみの各変種がDPPOを上回り、両方を組み合わせた完全版が最も高いスコアを示しました。位置重みをランダムに並べ替えた場合は性能が落ち、閾値の数値ではなく位置の順序が効いていることも確認されています。超パラメータ(δb、wmin)や散度指標(KL、TV、Binary、Top-K)を変えても、prefix予算として閾値を適用する設計自体が利得の主因だと論文は述べています。

RLHF実装者が注目すべき点

CPPOの実装コストは低く、既存のPPO/GRPOパイプラインにトークンマスクを差し込むだけで動作します。DPPOのTop-K reduced-TV近似(K=20)をそのまま使うため、語彙全体の散度計算も不要です。

RLHFやRLVRの実装で学習が不安定になる場合、クリップ幅や学習率だけでなく、信頼域の配分方法そのものが原因の可能性があります。特に長い推論チェーンを生成するタスクでは、prefix全体のずれを見落とす一律閾値が、見かけ上は収束していても系列レベルの方策崩壊を招き得ます。CPPOはその構造を明示的に制約するアプローチとして、今後のLLM強化学習の設計選択肢に加わる論文です。