長文推論を軽くする Kimi LinearのKVキャッシュ削減戦略

長いコンテキストを扱うLLMでは、精度より先にメモリと速度が詰まります。Kimi Linearは、そのボトルネックを正面から潰すための注意機構です。従来のフルアテンションを置き換えるのではなく、長文でも速く、軽く、性能を落としにくい設計を狙っています。

GitHub - MoonshotAI/Kimi-Linear

Contribute to MoonshotAI/Kimi-Linear development by creating an account on GitHub.

GitHub

この記事でわかること
– Kimi Linearが何を解決するのか
– KVキャッシュを減らすと何が楽になるのか
– どの数字を見れば実用性を判断しやすいか
– 既存の長文対応モデルと比べてどこが違うか

Kimi Linearの狙い

Kimi Linearは、Moonshot AIが公開したハイブリッドな線形注意アーキテクチャです。中核は Kimi Delta Attention です。これは、有限状態RNNの記憶の使い方を改善する方向で設計された注意機構で、長文処理で問題になりやすい計算量とメモリ消費を抑えます。要するに、「長く読める」だけではなく、「長く読んでも破綻しにくい」ことを狙っています。

GitHubのREADMEでは、Kimi Linearが4k文脈のMMLU-Proでフルアテンションに近い速度を保ちながら51.0を記録し、128k文脈のRULERでは84.3と3.98倍の速度向上を示したと説明されています。さらに、1Mトークン級の長さではTPOTを最大6.3倍改善したとあります。TPOTは time per output token の略で、1トークンを出すのにかかる時間です。ここが短いほど、応答は体感で速くなります。

何が効いているのか

Kimi Linearのポイントは、単に「軽量化した」ことではありません。KDAとグローバルなMLAを組み合わせ、長文で重要な記憶を残しつつ、不要な状態を持ちすぎない構造にしています。READMEでは、KVキャッシュの必要量を最大75%削減できると説明されています。KVキャッシュは推論時に過去トークンの情報を保持する領域です。これが膨らむと、長文を扱うほどGPUメモリを食い、同時処理数も落ちます。

つまり、Kimi Linearは「長文で賢くなるモデル」というより、「長文で運用しやすくなるモデル」と見る方が実態に近いです。モデル精度だけでなく、推論基盤のコストとスループットまで含めて設計しています。

実務で見える価値

長文要約、コードベース解析、会話履歴の継続、RAGの後段推論のような用途では、モデルの賢さと同じくらい、応答までの待ち時間とメモリ消費が重要です。Kimi Linearはこの2点に効きます。特に、1Mトークンまで視野に入る点は、長い文書群を一度に扱いたい場面で強い意味を持ちます。

また、Moonshot AIはKimi LinearのKDA kernelをFla Core系の実装にオープンソース化し、48B総パラメータ・3B活性化パラメータのチェックポイントも公開しています。研究紹介だけで終わらず、実装と重みの両方が出ているので、試しやすいのが実用面で大きいです。

使い始めるときの見方

まず見るべきなのは、ベンチマークの数字よりも運用条件です。自分の用途が4k前後の短文中心なら、恩恵は限定的です。逆に、数万から数十万トークンを処理するなら、KVキャッシュ削減とTPOT改善の価値が一気に上がります。

次に確認したいのは、利用する推論基盤との相性です。READMEでは torch 2.6以上、fla-core 0.4.0以上が前提として示されています。すでにvLLMやTransformersで長文モデルを扱っている環境なら、比較導入の候補になります。

既存の長文モデルとの違い

多くの長文対応モデルは、性能を保つためにメモリを多く使うか、速度を優先して精度を少し落とします。Kimi Linearは、そのトレードオフを別の構造で詰めにいっています。短い文脈でも長い文脈でも極端に崩れにくく、しかも1Mトークン級まで想定している点が特徴です。

長文対応の議論は、しばしば「どれだけ読めるか」で止まります。Kimi Linearが示しているのは、その先です。読めることに加えて、安く回せること、速く返せることまで含めてモデルを評価する視点です。長文推論を本番に載せたいなら、ここを外せません。