LLMの推論コストは、モデル規模が大きくなるほど無視できなくなっています。Sakana AIとNVIDIAの共同研究が、フィードフォワード層に潜む「ほぼゼロの活性」を活かして、推論速度を最大30%改善する手法を発表しました。ICML 2026への採択も決まっています。
この記事でわかること:
- LLMのフィードフォワード層でなぜ無駄な計算が生じるのか
- 新しいスパースデータ形式「TwELL」の仕組み
- カスタムCUDAカーネルで得られた推論・学習それぞれの改善幅
- カーネルのオープンソース公開について
LLMフィードフォワード層の「無駄」とは何か
TransformerベースのLLMは、アテンション層とフィードフォワード層(FFN)を交互に積み重ねた構造を持っています。FFNはトークンごとに独立して処理するため、モデル全体のパラメータ数とFLOPsの大半を占める存在です。
FFNの内部では、入力を一度大きな隠れ次元に展開し(アップ射影)、非線形活性を適用してから元の次元に戻す(ダウン射影)という計算が行われます。問題はこの「展開」の段階にあります。
ReLU活性を持つ事前学習済みモデルを調べると、隠れ次元のアクティベーションのうち実際にゼロでない要素は全体の5〜20%に過ぎないことが知られています。L1正則化を組み合わせれば、スパース率を95%以上に高めても下流タスクの精度にほぼ影響が出ないことも確認されています。つまり、実際には存在する計算の大部分が不要です。
にもかかわらず、現代のNVIDIA GPUは密行列積に最適化されたTensor Coreを中心に設計されており、非構造的スパース性をそのまま活かす仕組みがありませんでした。スパース処理のオーバーヘッドが理論上の節約を打ち消してしまうため、実用的な高速化が難しいとされてきました。
TwELLとカスタムCUDAカーネルが解決する課題
Sakana AIとNVIDIAが提案するのは、この矛盾を解消する2つの技術です。
TwELL(Tile-wise ELLPACK)は、GPUのタイル化行列積カーネルと親和性の高い新しいスパースデータ形式です。従来のELLPACKはデータを行全体で詰め込む設計でしたが、TwELLは列方向をタイルに分割し、タイル内でELLスタイルのレイアウトを維持します。これにより、タイルごとの非ゼロ要素を揃えて格納でき、Tensor Coreのタイル化実行パターンと干渉しません。追加のメモリオーバーヘッドも最小限に抑えられています。
カスタムCUDAカーネルは、推論用と学習用のそれぞれで設計が異なります。推論カーネルは複数の行列積を融合(fuse)して実行し、TwELL表現をその場で構築しながら処理します。学習カーネルは逆伝播全体を通じて密行列積を使わずに計算できる設計で、「ハイブリッド表現」(スパースメインと少数の密バックアップの組み合わせ)を用いてメモリ転送を最小化します。
実際の性能改善
1.5Bパラメータモデルを複数のスパース率でH100 GPU上に展開し、検証を行いました。
推論では、スパース率に応じて最大30%のスループット向上が確認されました。特定のスパース水準を超えると、GPU消費電力も約3%削減され、エネルギー効率の改善はスループット以上に大きくなります。
学習では、最大24%のスループット向上と、最低スパース水準でもピークGPUメモリが24%以上削減される結果が出ました。メモリが減ることで、同じハードウェアで扱えるマイクロバッチサイズも大きくなります。
さらに2Bパラメータモデルでは、モデルが大きいほどスパース性を活かしやすいことが示されています。0.5Bから2Bへのスケールアップで非ゼロ活性が38%も少なくなり、推論で20.5%高速化、学習で21.9%高速化、マイクロバッチサイズが2倍に拡大しました。スパース化の恩恵はスケールとともに成長する傾向があります。
精度への影響については、7つの下流タスクで評価した結果、十分なスパース率(L1係数が2×10⁻⁵以下)の範囲では平均精度にほぼ変化がなく、クロスエントロピーの微細な変化のみにとどまっています。
オープンソース公開の予定
Sakana AIは、今回開発したTwELLデータ形式と一連のCUDAカーネルをすべてオープンソースで公開すると明言しています。これにより、将来のハードウェア対応アルゴリズムや効率的なLLM開発の研究が加速することが期待されます。論文はarXivにも公開されており(arXiv:2603.23198)、ICML 2026での発表が予定されています。
まとめ
LLMのフィードフォワード層には、もともと大量の「ほぼゼロ」の活性が存在します。Sakana AIとNVIDIAは、この性質をGPUの実行パターンに合わせて活かす新しいデータ形式とCUDAカーネルを開発し、精度を損なわずに推論30%・学習24%の高速化を実現しました。モデル規模が大きいほど効果が増す傾向があり、LLMのスケールアップに伴うコスト課題へのアプローチとして注目されます。カーネルのオープンソース公開後は、外部からの活用・改良も期待できます。