Gemma 4 MTP ドラフターでローカルAIの推論を最大3倍高速化

ローカルでLLMを動かすとき、1トークンごとに処理が止まる遅さがあります。それはモデルの性能ではなく、アーキテクチャ上の制約です。

GoogleはGemma 4ファミリー向けのMTP（Multi-Token Prediction）ドラフターを2026年5月5日にリリースしました。出力品質をまったく落とさず、推論速度を最大3倍に引き上げる手法です。Apache 2.0ライセンスで、Hugging Face・Kaggle・Ollamaで今すぐ利用できます。

この記事でわかること：

標準LLMがなぜ遅いのか、その構造的な理由
スペキュラティブデコーディングの仕組みとMTPドラフターの役割
RTX PRO 6000・Apple Siliconでの実測値
vLLM・MLX・Ollamaでの導入方法

ローカルLLM推論の構造的なボトルネック

標準的なLLMはテキストを1トークンずつ自動回帰的に生成します。1トークンを出力するたびに、数十億のパラメーターをVRAMから演算ユニットへ転送しなければなりません。処理時間のほとんどはこのメモリ転送に費やされ、演算ユニット自体は大半の時間をアイドル状態で過ごします。

ハイエンドGPUを積んでいても1トークンずつカーソルが点滅するような遅さが出るのはこのためです。量子化モデルや小型モデルへの切り替えが一般的な回避策ですが、どちらも品質とのトレードオフです。

スペキュラティブデコーディングとMTPドラフターの仕組み

スペキュラティブデコーディング（投機的デコーディング）は、Google Brainが2022年に発表した推論高速化の手法です。今回のMTPドラフターはこの手法をGemma 4向けに最適化したものです。

仕組みの核心は「下書き→検証」の分離にあります。まず、小さく高速な「ドラフターモデル」が複数のトークンを先読み予測します。次に、大きなターゲットモデル（例: Gemma 4 31B）がその予測を1回のフォワードパスで一括検証します。予測が合っていれば、ドラフターが出した系列全体を受理し、ターゲットモデル自身がさらに1トークンを追加します。1トークン分の計算コストで複数トークンが出力される計算です。

ターゲットモデルが検証の主体であるため、出力品質は標準推論と同一です。ドラフターはターゲットモデルのKVキャッシュ（処理済みコンテキストを保存するメモリ構造）を共有しており、コンテキストの再計算は発生しません。エッジ向けのE2B・E4Bモデルでは、ロジット計算を効率化するクラスタリング技術も追加されています。

実測値：どれくらい速くなるか

Googleが公開したベンチマーク結果によると、NVIDIA RTX PRO 6000でGemma 4 26B（MoEモデル）を動かした場合、MTPドラフター有効時に約2倍のトークン/秒が出ます。Apple Siliconでは、バッチサイズ4〜8のリクエストを処理する条件で最大2.2倍のスピードアップが確認されています。上限の「3倍」はすべての環境で達成できるわけではありませんが、「ぎりぎり使える」から「実用的に快適」へのラインを超える改善です。

活用が変わるユースケース

コーディングアシスタント、ローカル音声インターフェース、マルチステップのエージェントワークフロー——いずれもレスポンスのラグが使い勝手を左右する用途です。26B・31Bクラスのモデルが消費者向けGPUで快適に動くようになります。スマートフォンやRaspberry Piで動くE2B・E4Bモデルでは、生成速度の向上がバッテリー消費の削減にも直結します。

導入方法と対応フレームワーク

https://huggingface.co/google

MTPドラフターはHugging Face・Kaggleでダウンロードできます。Ollamaには対応プルコマンドが用意されています。

対応フレームワークは以下のとおりです。

vLLM（本番向けサービング）
MLX（Apple Silicon最適化）
SGLang（エージェント・構造化出力向け）
Hugging Face Transformers

モデルIDの命名規則は google/gemma-4-[バリアント]-it-assistant で、バリアントに E2B（エッジ2B）、26B-A4B（26B MoE）、31B（31B Dense）などを指定します。ライセンスはApache 2.0のため、商用利用も可能です。モバイルで試す場合は、Google AI Edge GalleryのAndroid・iOSアプリが利用できます。

まとめ

ローカルLLMの推論速度を制限していたのはモデルの能力ではなく、1トークンずつVRAMからデータを引き出す構造的な制約でした。Gemma 4のMTPドラフターはその制約をソフトウェア側から解消します。既存のGemma 4モデルをそのまま使いながら速度だけを引き上げられるため、ハードウェアの追加投資なしにローカルAIの体験を改善できます。