LLM推論のインフラコストを、GPUを追加せずに削減する手法があります。「分散推論(Disaggregated Inference)」と呼ばれるアーキテクチャです。同じハードウェアのままGPU利用率を根本から改善できます。
この記事でわかること
- LLM推論のGPU利用率が低くなる本当の原因
- 分散推論の仕組みと実際の効果
- NVIDIA Dynamo・vLLM・SGLangでの実装状況
- 導入に向いているケースと向いていないケース
LLM推論に潜む2つのフェーズ
LLM推論は「1つのワークロード」に見えますが、内部ではまったく性質の異なる2つのフェーズが交互に動いています。
プリフィル(Prefill) はユーザー入力を並列で処理するフェーズです。密行列積演算がGPUのテンソルコアを飽和させ、H100での実測では90〜95%のGPU使用率になります。ただし処理時間は1リクエストあたり約200ミリ秒と短いです。
デコード(Decode) はトークンを1個ずつ生成するフェーズです。3〜9秒かかりますが、GPU使用率は20〜40%前後まで下がります。アテンションキャッシュをシーケンシャルに読み取る処理が支配的で、演算コアよりもメモリ帯域幅がボトルネックになるためです。
1リクエスト全体の時間のうち、高負荷なプリフィルが占める割合は約5%です。残りの95%は低利用率のデコードが占めます。演算性能向けに最適化された高価なGPUが、ほとんどの時間はメモリ帯域幅の処理に使われています。
監視ツールが問題を隠している
既存のGPU利用率ダッシュボードの多くは「全体の平均値」という単一の数字を表示します。プリフィル時92%・デコード時30%が混在するクラスターでも、平均は55%前後に収まります。
55%という数字を見た担当者は「まだ余裕がある」と判断します。双峰分布の実態が平均値に隠れているからです。UC San DiegoのHao AI Labがまとめた論文「DistServe」(OSDI 2024)でも、H100の実測データを使って同じパターンが定量的に示されており、今回のアーキテクチャが解決策として提案されています。
分散推論の仕組み
分散推論はプリフィルとデコードをそれぞれ専用のGPUプールに分離するアーキテクチャです。
プリフィル専用プールには、演算コアの高スループットに特化したGPUを割り当てます。プリフィルだけを処理するため、テンソルコアの稼働率を常に90%以上に保てます。デコード専用プールでは、数百の並行リクエストをバッチ処理します。メモリ読み取りが複数リクエスト間で分散されるため、帯域幅利用率は30%前後から70%以上に改善します。
プリフィル完了後のKVキャッシュは、RDMAなどの高速ネットワークでデコードプールへ転送します。ルーティング層がリクエストをフェーズに応じて適切なプールへ振り分ける仕組みです。2026年時点では「NIXL」という転送機構がvLLMとNVIDIA Dynamoの両方で標準になっており、InfiniBandやRoCEを使ったRDMAでサブミリ秒の転送を実現します。
実際の導入効果
あるグローバル小売業者のケースが参考になります(参考)。製品検索とレコメンドパイプラインに70Bモデルを組み込んでいたこの企業は、H100を48台で運用し年間約2億円の推論コストを支出していました。
クラスターをプリフィル専用8台・デコード専用40台に分けて設定を変更したところ、同じリクエスト量・同じレイテンシー目標を維持したまま年間6,000〜8,000万円の削減が見込まれる結果となりました。新規GPU購入ゼロ、モデル変更なし、ソフトウェアの設定変更のみです。
レイテンシーも改善しています。従来の構成ではプリフィルのバーストがデコード処理を中断させ、ストリーミング応答の途中でテキストが止まる現象が起きていました。分離後はP99のトークン間レイテンシーが安定し、このストールはなくなりました。
Perplexity・Meta・LinkedIn・Mistralも本番環境で分散推論を採用しています。Perplexityはキャッシュ転送にRDMAを使ったスタックを構築し、低レイテンシーを実現しています。
主要フレームワークの対応状況
2026年時点で主要なLLM推論フレームワークが分散推論に対応しています。
NVIDIA Dynamoは分散推論向けに設計されたオーケストレーションフレームワークです。GTC 2025で発表され、プリフィルとデコードを第一級のプールタイプとして扱います。NVIDIA Blackwellハードウェア上でDeepSeek-R1を使った検証では最大30倍のリクエスト処理能力の向上が報告されています。PyTorch・SGLang・TensorRT-LLM・vLLMと統合して使えます。
vLLMはネイティブの分散プリフィルをサポートしています。KVキャッシュ転送はNIXLを通じて行われ、RDMAが使えない環境ではTCPにフォールバックします。
SGLangも分散推論をネイティブサポートしており、NVIDIAのMLPerfベンチマークでも使用されています。Red HatとIBM Researchが共同でオープンソース化した「llm-d」はKubernetes上で分散推論アーキテクチャを標準的なクラスター管理ワークフローとして実装できます。
向いているケースと向いていないケース
分散推論の効果が出やすい条件があります。GPUが12台以上あるクラスター、512トークンを超えるプロンプト、出力が一定以上の長さになる推論タスク、エンタープライズスケールでの大量リクエスト処理が該当します。
効果が薄いケースもあります。512トークン未満の短いプロンプトで出力も短い場合はキャッシュ転送のオーバーヘッドに見合いません。マルチターン会話でKVキャッシュの80%以上がデコードワーカーに残っている場合はローカル処理の方が効率的です。少数GPU構成ではスケジューリングのオーバーヘッドが節約分を上回る可能性があります。
まず計測から始める
GPU利用率の監視を「全体の平均値」から「フェーズ別の個別計測」に切り替えることが最初のステップです。推論サーバーにフェーズ別のインストルメンテーションを加えて、プリフィルとデコードの利用率を24時間分プロットします。2本のグラフが大きく乖離していれば、分散推論で改善できる余地があります。
NVIDIA Dynamo・vLLM・SGLangはいずれも本番利用可能な実装を提供し、Perplexityら大規模事業者が導入実績を積んでいます。新しいハードウェアを発注する前に、現在のGPUの使われ方を確認する価値はあります。
