AIエージェントが本番環境で動き始めると、GPUの演算性能より先に「別のもの」が限界に達する。

DeepSeekの研究チームが2026年2月に発表した論文「DualPath」は、マルチターン型のLLM推論でストレージI/Oがボトルネックになるという問題に正面から取り組んだシステムです。KVキャッシュの読み込み経路を二重化するだけで、サービングスループットを平均1.96倍に改善できると実証されています。

この記事でわかること:

  • アジェンティック推論でなぜストレージI/Oがボトルネックになるのか
  • 既存のPD分離アーキテクチャが抱える帯域偏在の問題
  • DualPathが導入した二重パスKVキャッシュ読み込みの仕組み
  • トラフィック管理と動的スケジューラの設計
  • 実験で示されたスループット改善の数値

https://arxiv.org/abs/2602.21548

アジェンティック推論はI/Oバウンドになる

ChatGPTのような単発の問答と、Claude CodeやDeepSeek-R1のような自律エージェントの動作は、推論システムへの負荷という点で根本的に異なります。

エージェントは1つのタスクを完遂するまでに、ツール呼び出しや環境フィードバックを繰り返しながら数十〜数百のターンを重ねます。DeepSeekチームが収集したコーディングタスクのトレースでは、平均ターン数は157、平均コンテキスト長は32,700トークンでした。1ターンに追加されるトークンは平均429しかなく、KVキャッシュヒット率は98.7%に達しています。

つまりエージェント推論では、毎ターン「巨大なKVキャッシュをストレージから読み込み、わずかなトークンだけ演算する」というパターンが繰り返されます。演算負荷ではなくI/O負荷が支配的になるのはこのためです。

DeepSeek-V3.2を例にとると、コンテキスト長16K〜64Kの範囲でキャッシュ/演算比(GB/PFLOP)は13〜36に達します。Qwen2.5-32B(FP16)では117〜267と、さらに深刻になります。GPUの演算能力がいくら高くても、ストレージの読み込みが間に合わなければ性能は出ません。

既存アーキテクチャの盲点:帯域の偏在

現在の大規模LLM推論には、プリフィル(文脈処理)とデコード(トークン生成)を別のGPUに分担させる「PD分離(Prefill-Decode Disaggregation)」が広く採用されています。

この構成では、プリフィルエンジン(PE)がストレージからKVキャッシュを読み込み、デコードエンジン(DE)にRDMAで転送したうえで、トークン生成を進めます。外部ストレージには大容量のSSDを使い、DRAM容量の制約を回避しながら長大なコンテキストを保持します。

問題はストレージNIC(SNIC)の使われ方にあります。PEだけがストレージからKVキャッシュを読むため、PEのSNICは常に飽和状態です。一方でDEのSNICはほぼ遊んでいます。クラスタ全体のストレージ帯域のうち、実際に活用できているのはPE側のNICだけという非対称な状態が生まれます。

NVIDIA Ampere世代からBlackwell世代への移行で、I/O・演算比は14.4倍も低下しています。GPUの演算性能は飛躍的に伸びているのに、ネットワーク帯域の増加は追いついていません。PEのSNIC飽和問題は今後ますます深刻になる方向にあります。

DualPathの解法:KVキャッシュ読み込みを二本立てに

DualPathの着想はシンプルです。「KVキャッシュの読み込みは、必ずしもPEが行う必要はない」という観点に立ち、DEのSNICも活用できるようにします。

具体的には、KVキャッシュの読み込み経路を二つ用意します。

PEリードパス(従来の経路)
ストレージ → PEのSNICでDRAMへ読み込み → PE HBMへ転送 → 計算後にDEへRDMAで送信

DEリードパス(新しい経路)
ストレージ → DEのSNICでDRAMへ読み込み → DE HBMへ転送 → コンピュートネットワーク(CNIC)経由でPEに転送

DEリードパスでは、DEのSNICとコンピュートネットワークを組み合わせてデータを運びます。コンピュートネットワークはモデルの並列演算に使われるRDMA対応の高速ネットワークで、SNICのストレージネットワークとは物理的に分離されています。DualPathはこの余剰帯域を活用します。

グローバルスケジューラがリクエストごとにどちらのパスを使うか動的に決定し、PE・DE両方のSNICを均等に使い切れるよう調整します。

干渉を避けるトラフィック管理

DEリードパスをそのまま導入すると、コンピュートネットワークがKVキャッシュ転送と推論時の通信(all-reduceなど)で競合します。推論通信はマイクロ秒単位のレイテンシが求められるため、KVキャッシュ転送が混入すると全体のスループットが下がるリスクがあります。

DualPathはこの問題を「CNIC中心のトラフィック管理」で解消します。具体的には、各エンジンに搭載したトラフィックマネージャーがNICの使用状況を監視し、KVキャッシュ転送と推論通信が衝突しないようキューを制御します。レイテンシに敏感な推論通信を常に優先し、KVキャッシュ転送は空き帯域に流します。

これにより、DE読み込みパスを追加しても、既存の推論通信への干渉は設計上ゼロになります。

実験結果:スループット1.96倍

論文では3つのモデル(DeepSeek-V3.2、GPT-OSS-120B、Qwen3-235B-A22B)と、本番環境に近いアジェンティックなワークロードで評価が行われました。

オフライン推論(レイテンシ制約なし)では最大1.87倍のスループット向上が確認されています。オンラインサービング(SLO=サービス品質基準を維持)では平均1.96倍のスループット向上を達成しました。

さらに、最初のトークンが出るまでの待ち時間(TTFT)も短縮され、トークン間のレイテンシ(TPOT)はほぼ変化なしという結果が出ています。スループットを上げながらユーザー体験に影響する指標を維持しているのが特徴です。

Mooncakeとの違い

同様のKVキャッシュ高速化アプローチとしてMooncake(Qin et al., 2025)があります。MooncakeはKVキャッシュを分散DRAMプールにキャッシュし、アフィニティスケジューリングでDRAMヒット率を上げる手法です。

両者の最大の違いはDRAM依存度にあります。Mooncakeの手法は大量のDRAMを必要とするため、強化学習のロールアウト時などDRAMが学習状態で占有されるシナリオでは使えません。また、数テラバイト規模の大きなワーキングセットでは、SSDと比べてDRAMのコストが大きな障壁になります。

DualPathはSSDベースのKVキャッシュストレージを前提に設計されており、DRAM容量の制約を受けません。DRAMとSSDの使い分けではなく、既存の読み込みパスの帯域不足そのものを解消するアプローチです。

まとめ

DualPathが示すのは、エージェントLLM推論のボトルネックが演算ではなくI/Oに移行しているという事実です。従来のシステムはプリフィルエンジン側のSNICだけに負荷を集中させており、デコードエンジン側の帯域は未活用のままでした。

KVキャッシュの読み込み経路を二本立てにしてデコードエンジンの遊休帯域を使い切る——この設計変更だけでオンラインサービングスループットが約2倍になるという結果は、インフラ最適化の観点から注目に値します。DeepSeekが本番システムにこの手法を取り込んでいることも、実用性を裏付けています。