生成するトークン数を誰もコントロールしていない。
LLMの推論コストを下げようとすると、どれだけ速くトークンを生成するかにばかり目が向きがちだ。しかし研究者のZhen Zhang氏は2026年4月27日、まったく別の問題を指摘した。「どれだけ多くのトークンを生成するか」——この問いに、ほとんどの推論システムはまだ答えられていない。
この記事でわかること:
- LLMのバッチ推論でなぜ「生成長の不均一性」がコストを膨らませるのか
- LenVMが提唱する「残り長さをvalue functionとして扱う」新しいアプローチ
- ICLR 2026採択論文ForeLen/EGTPが明かした既存手法の限界と改善効果
- 長い推論・エージェントワークフローが普及するにつれてこの問題が深刻化する理由
https://x.com/zhenzhangzz/status/2048819834453152227
バッチ推論の見落とされていた無駄
LLMをサービスとして運用するとき、複数のリクエストをまとめて並列処理するバッチ推論が標準的な手法だ。ここで問題になるのが、各リクエストの「生成トークン数」がバラバラである点だ。
バッチ内の最も長い生成に合わせてメモリを確保しなければならないため、短い生成には使われない「パディング」領域が発生する。これは計算資源の純粋な無駄だ。
さらに問題を複雑にするのが、長さの分布が「長尾分布(long-tailed distribution)」になりやすいことだ。大半のリクエストは比較的短い出力で済むが、Chain-of-Thoughtの推論や複雑なエージェントタスクでは極端に長い出力が発生する。この少数の長い出力が全体のメモリと計算時間を支配してしまう。
生成長の予測に取り組んだForeLen論文
この問題に正面から取り組んだ研究が、ICLR 2026に採択された「Predicting LLM Output Length via Entropy-Guided Representations」(arXiv:2602.11812)だ。
従来の生成長予測には、別途訓練した補助モデルを使う方法が主流だった。しかしこの手法には致命的な弱点がある。
まず、補助モデルそのものの計算オーバーヘッドが小さくない。次に、学習データ外の分布に対して汎化しにくい。そして最も厄介なのが、同じプロンプトから異なる長さの出力が生じる「one-to-many」シナリオに対応できないことだ。Chain-of-Thoughtや確率的サンプリングを使うとき、まさにこのケースが頻繁に起きる。
この論文が提案するのが、モデル自体の内部状態を再利用するアプローチだ。
Entropy-Guided Token Pooling(EGTP)は、推論中にオンザフライで計算される内部活性化量とトークンのエントロピーを使って、生成前に長さを予測する。追加モデルが不要なため、オーバーヘッドはほぼゼロだ。ForeLen(長シーケンス・Chain-of-Thought・RLデータを含む独自ベンチマーク)での評価では、MAEを既存最高手法と比べて29.16%削減した。
Progressive Length Prediction(PLP)は、デコードの各ステップで「残り生成数」を動的に推定し続ける。確率的な生成中にも逐次的に長さの見積もりを更新できるため、EGTPでは対応しきれないone-to-manyシナリオを補完する。
この2つを組み合わせてlength-awareスケジューラに統合すると、エンドツーエンドのスループットが大幅に向上するという。
LenVM——残り長さをvalue functionとして扱う
ForeLen論文が「生成長の予測精度を上げる」という方向で問題に取り組んだのに対し、Zhen Zhang氏が提唱するLenVM(Length Value Model)はさらに根本的な発想の転換を提示する。
LenVMのキーアイデアは、「残り生成長をvalue function(価値関数)として扱う」ことだ。
強化学習では、ある状態からゴールまでの「累積報酬の見積もり」をvalue functionと呼ぶ。LenVMはこの概念を生成長に適用する。現在のデコードステップから最終トークンまでの「残りトークン数」を、単なる統計的な予測ではなく、状態に紐づいた価値として推定するアプローチだ。
これが実用的に重要なのは、生成長がコスト・レイテンシ・KVキャッシュ・推論品質のすべてに影響するからだ。特に長い推論やエージェントワークフローが一般的になりつつある今、生成長の制御は推論インフラの設計において避けられない課題になっている。
Zhang氏は「長さのモデリングはLLMスケーリングの新しい次元になる」と主張する。パラメータ数やコンテキスト長と同様に、「どれだけ的確な長さで生成するか」が推論の品質とコストを左右する要素として浮上してきた。
なぜ今この問題が重要になるのか
生成長の問題がこれほど注目される背景には、LLMの使われ方の変化がある。
単純なQ&Aや要約であれば、出力長はある程度予測しやすい。しかしCoT(Chain-of-Thought)推論や複数エージェントが連携するワークフローでは、中間ステップを含む長い出力が頻繁に発生する。プロダクション環境でこれらを捌くには、長さに基づくスケジューリングが不可欠になってきた。
加えて、推論コストの削減は商業的な圧力も強い。同じAPIを呼び出すにしても、不要なトークンを生成させないことは直接コスト削減につながる。生成長の制御は「モデルを賢くする」とはまた別の、インフラ側のコスト最適化として機能する。
まとめ
LenVMは、LLM推論における生成長の制御という見落とされがちな問題に新しい切り口をもたらす研究だ。ICLR 2026で採択されたForeLen論文がEGTPとPLPで予測精度の改善を実証し、LenVMはそこからさらに一歩進めてvalue functionという枠組みで生成長をモデル化する。
速いトークン生成と、適切なトークン数の生成——LLM推論の最適化は、この2つの軸で同時に考える時代に入りつつある。