DiffusionGemma登場 GPUで4倍速の拡散型LLM

テキスト生成の常識がひっくり返った。

Google DeepMindは2026年6月10日、Gemma 4ファミリーの新メンバー「DiffusionGemma」を公開しました。従来の自己回帰型（左から右へ1トークンずつ出力）ではなく、拡散モデルの考え方で最大256トークンを並列生成する実験的オープンモデルです。H100では1秒あたり1000トークン超、GeForce RTX 5090でも700トークン超のスループットを実現し、同等規模の自己回帰型Gemmaと比べて最大4倍の速度をうたっています。

この記事でわかること

DiffusionGemmaが従来のLLMと何が違うのか
4倍高速化の仕組みとローカルGPUでの実用性
品質とのトレードオフと向いている用途
モデルの入手方法と実行環境

DiffusionGemma: 4x faster text generation

An overview of DiffusionGemma, an exceptionally fast text generation model with up to 4x faster speeds.

Google

拡散方式でテキストを一括生成する

多くの大規模言語モデル（LLM）は自己回帰型です。前のトークンを手がかりに次の1語を順番に予測するため、クラウドで大量リクエストを束ねれば効率は出ますが、ローカルGPUで1人分の推論を回すとメモリ帯域の待ち時間がボトルネックになり、計算資源が遊びがちです。

DiffusionGemmaは画像生成の拡散モデルと同様のアプローチをテキストに適用します。まずランダムなプレースホルダートークンで256トークン分の「キャンバス」を用意し、複数回の反復でノイズを除去しながら正しいトークンを確定させます。1回のフォワードパスで256トークンに双方向アテンションをかけられるため、デコードのボトルネックがメモリ帯域から計算量へ移り、GPUの並列演算を活かしやすくなります。

モデル規模は総パラメータ数約260億のMixture of Experts（MoE）構成で、推論時に活性化するのは38億パラメータだけです。量子化すれば18GB VRAMのハイエンドGPUにも収まる設計で、ローカル実行を想定した足回りになっています。

Googleが拡散型テキスト生成に踏み込んだ理由

テキストの拡散生成は研究コミュニティで長く検討されてきましたが、大規模モデルへの適用は難しく、Google自身もクラウド向けGeminiへの採用は慎重です。言語は離散的なので、画像の1ピクセル誤差より1トークンの誤りが致命的になりやすく、短い出力ほど並列処理のオーバーヘッドが目立つからです。

それでもローカルAIの需要が高まる中、単一ユーザー向けの低レイテンシ用途には拡散方式の強みが際立ちます。インライン編集、コードの穴埋め、数式グラフの生成、タンパク質配列のような非線形な構造を扱うタスクでは、未来のトークンも見ながら全体を修正できる双方向アテンションが有利です。Googleの公式ブログでは、数独を解くファインチューニング例が示され、自己回帰型が苦手とする「後のマスが前のマスに依存する」問題への適性が紹介されています。

NVIDIAとの共同最適化も進んでおり、消費者向けGeForce RTX（5090・4090の量子化版）、データセンター向けH100、デスクサイドのDGX SparkやDGX Stationまで幅広い環境を想定しています。NVIDIAの技術ブログでは、DGX Station上で最大2000トークン/秒に達したと報告されています（参考）。

ベンチマークと品質のトレードオフ

速度の代償として、出力品質は標準のGemma 4より下がります。Googleは本番用途では従来のGemma 4を推奨し、DiffusionGemmaは実験的モデルと位置づけています。

Hugging Faceのモデルカードに掲載されたベンチマークでは、指示チューニング済みDiffusionGemma 26B A4BはMMLU Proで77.6%、同等のGemma 4 26B A4Bは82.6%でした。数学・コーディング系（AIME 2026、LiveCodeBench v6）でもGemma 4が上回る結果です。一方、一部の長文推論タスクではDiffusionGemmaが僅差で先行するケースもあり、用途によって明暗が分かれます。

vLLMのベンチマーク（単一H100、同時リクエスト数1）では、リクエスト完了時間が平均2.87秒から0.88秒へ短縮され、生成スループットは約6.2倍に伸びたと報告されています（参考）。ただし初回トークンまでの時間（TTFT）は拡散キャンバスのセットアップ分だけ長くなる点に注意が必要です。

モデルの入手と実行方法

google/diffusiongemma-26B-A4B-it · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

重みはApache 2.0ライセンスでHugging Faceから配布されています。モデルIDはgoogle/diffusiongemma-26B-A4B-itです。

実行フレームワークはHugging Face Transformers、vLLM、MLX、Unsloth、NVIDIA NeMoなどに対応しています。TransformersではDiffusionGemmaForBlockDiffusionクラスを使い、チャットテンプレート経由で推論できます。サンプリングは最大48ステップのデノイジング、エントロピー閾値0.1のEntropy Boundサンプラーを推奨設定としています。

テキストだけでなく画像・動画入力にも対応するマルチモーダルモデルで、コンテキスト長は最大256Kトークン、35言語以上のマルチリンガル対応、ツール呼び出し（Function Calling）も備えています。Apple Siliconの統合メモリ環境では計算より帯域がボトルネックになりやすく、自己回帰型と同程度の速度に留まる可能性がある点はGoogleが注意喚起しています。

自己回帰型Gemma 4との使い分け

観点	DiffusionGemma	Gemma 4（自己回帰型）
生成方式	256トークン並列の拡散デノイジング	1トークンずつ順次生成
速度（単一GPU・低同時実行）	最大4倍高速	ベースライン
出力品質	Gemma 4より低い	本番推奨
向く用途	ローカル対話、エージェント、編集・反復	高品質・高QPSのクラウド配信
ライセンス	Apache 2.0	Gemma利用規約

クラウドで多数ユーザーのリクエストを束ねる高QPS環境では、自己回帰型の方が計算資源を埋めやすく、拡散方式の恩恵は薄れます。逆にRTXやDGX Sparkのようなローカルマシンで1人が対話やエージェントループを回す場面では、DiffusionGemmaの並列生成が体感速度を大きく改善します。

ローカルAIの速度競争が新段階へ

DiffusionGemmaは「速さを最優先にした実験的Gemma」です。品質面ではGemma 4に譲る一方、ローカルGPUでのトークン生成速度を桁違いに引き上げ、双方向アテンションによる自己修正で非線形タスクにも新しい可能性を開きます。研究者や開発者がHugging Faceから重みを取得し、対話アプリやエージェント、編集支援ツールへ組み込む第一段階として、今すぐ試せるモデルになっています。