クラウドAPIに頼らず、手元のPCだけでLLMを動かして学習まで完結させたい——そんな開発者向けに、Googleのオープンウェイトモデル「Gemma 4」が強力な選択肢になっています。

この記事では、Gemma 4の概要と8GB RAM環境でのローカル実行、自前データを使ったファインチューニングの手順を整理します。

この記事でわかること

  • Gemma 4ファミリーの構成と、8GB RAMで動かせるモデルの選び方
  • ローカル推論に使えるツールと、必要なメモリ量の目安
  • 自前データで100%ローカルにファインチューニングするための設定

Gemma 4とは何が新しいか

Google DeepMindは2026年4月2日、オープンウェイトモデルファミリー「Gemma 4」をApache 2.0ライセンスで公開しました。Gemini 3と同じ研究基盤を土台に、推論・エージェント・コード生成・マルチモーダル処理を1つのモデル群にまとめています。

サイズはE2B(実効約23億パラメータ)、E4B(実効約45億)、26B-A4B(MoE)、31B Denseの4種類です。6月3日にはエンコーダーレス設計の「Gemma 4 12B」が追加され、テキスト・画像・音声を単一のLLMバックボーンで処理する統合アーキテクチャが特徴です。

Google公式ブログでは、Gemma 4の累計ダウンロード数が4億回を超え、コミュニティによる派生モデルが10万種類以上に達したと報じられています。31BはArena AIのテキストリーダーボードでオープンモデル3位、26Bは6位に入り、パラメータ数の20倍規模のモデルに匹敵する性能が示されています。

8GB RAMで動かせる理由

「8GB RAMでローカル実行できる」という話題の根拠は、量子化(モデル重みを低精度に圧縮する技術)とモデルサイズの組み合わせにあります。

Unslothのハードウェア要件表によると、4bit量子化時の推論メモリは次のとおりです。

モデル 4bit推論 8bit推論
E2B 4GB 5〜8GB
E4B 5.5〜6GB 9〜12GB
12B Unified 7〜8GB 13〜14GB

8GB RAMのPCで現実的に動かすなら、E2Bか12Bの4bit版が第一候補です。E2BはスマートフォンやRaspberry Pi向けに設計されたエッジ向けモデルで、テキスト・画像・音声の3モダリティに対応します。12Bは中規模モデルとして推論精度が高く、公式では16GBのVRAMまたはユニファイドメモリを推奨していますが、4bit量子化なら8GB帯でも動作可能です。

メモリの合計(RAM+VRAM、またはMacのユニファイドメモリ)が量子化モデルのサイズを上回ることが前提です。足りない場合はllama.cppがディスクオフロードで動かせますが、生成速度は落ちます。

ローカル推論の始め方

Gemma 4は公開初日からllama.cpp、Ollama、MLX、Hugging Face Transformers、LM Studio、LiteRT-LMなど主要ツールに対応しています。手軽に試すならOllamaが向いています。

ollama run hf.co/unsloth/gemma-4-E2B-it-GGUF:Q8_0

MacのApple Siliconなら、Unslothが配布するMLX量子化版も選択肢です。GUIで操作したい場合はUnsloth Studioを使うと、モデルの検索・ダウンロード・推論パラメータ調整を1つの画面で行えます。

推論時の推奨パラメータはGoogle公式のデフォルトに合わせるのが無難です。temperature=1.0、top_p=0.95、top_k=64が基準値です。Gemma 4は「思考モード」を持ち、システムプロンプト先頭に<|think|>トークンを付けると内部推論を経てから回答を返します。応答を速くしたい場合は無効化します。

自前データで100%ローカルにファインチューニングする

クラウドにデータを送らず学習するには、LoRA(Low-Rank Adaptation)によるアダプター学習が現実的です。ベースモデルの重みは固定し、小さなアダプター層だけを更新するため、フルファインチューニングよりVRAMを大幅に節約できます。

Unslothのドキュメントでは、Gemma 4 E2BのLoRA学習に8GB VRAMで足りると明記されています。E4BのLoRAは17GB VRAMが必要で、8GB環境ではE2Bか12Bの4bit版が現実的なラインです。UnslothはGemma 4の学習で従来のFlash Attention 2構成と比べ、約1.5倍の速度と約60%少ないVRAM消費を実現すると報告しています。

学習の基本手順は次のとおりです。

  1. Unslothをインストールする(curl -fsSL https://unsloth.ai/install.sh | sh
  2. Hugging Faceから対象モデル(例: unsloth/gemma-4-E2B-it)を4bit量子化で読み込む
  3. LoRAアダプターを設定し、自前のJSONLやCSV形式のデータセットを渡す
  4. gradient_checkpointing=Truepaged_adamw_8bitオプティマイザでVRAMを節約する
  5. 学習済みアダプターをGGUFなどの推論形式にエクスポートする

8GB VRAM環境ではper_device_train_batch_size=1gradient_accumulation_steps=8の組み合わせが定石です。バッチサイズ1でGPUに載せきれない分を勾配蓄積で補い、実効バッチサイズ8相当の学習を行います。

Google公式のGemma 4 12B開発者ガイドでは、ビジョン・音声・テキストが同一の重みを共有するエンコーダーレス設計のため、LoRAやフルチューニングでマルチモーダル全体を1パスで更新できる点が強調されています。従来のように別々のエンコーダーを個別に調整する必要がありません。

Apache 2.0ライセンスのおかげで、学習データもインフラもモデルもすべて手元で管理できます。Google公式ブログは「データ、インフラ、モデルに対する完全なコントロール」と表現しており、企業のオンプレミス運用や規制業界での利用にも適しています。

注意点とモデル選定の目安

用途によってモデルを分けるのが効率的です。スマホやIoT向けの低遅延タスクならE2B、ラップトップでのマルチモーダル推論ならE4Bか12B、最高品質のオフラインコーディングなら26B-A4Bか31Bが向きます。

ファインチューニング時は、Unslothが修正した学習パイプラインを使うことが推奨されます。2026年4月時点でGemma 4の学習に関する複数のバグ(勾配蓄積時の損失爆発、推論時のインデックスエラーなど)がコミュニティで報告されており、Unsloth側で修正済みとされています。損失値が13〜15を大幅に超える場合は、学習設定の見直しが必要です。

音声入力は12B・E2B・E4Bに対応しますが、1回あたり最大30秒、動画は1FPSで最大60秒が上限です。長尺メディアの処理にはコンテキストウィンドウ(E2B/E4Bは128K、12B以上は256K)内に収める設計が求められます。

8GB RAMのPCでも、量子化とLoRAを組み合わせればGemma 4の推論とファインチューニングは十分現実的です。クラウド課金やAPIレート制限を気にせず、自社データでカスタムモデルを試せる環境が、一般向けGPUでも手の届くところまで来ています。