8GB RAMでGemma 4をローカル実行し自前データで学習する

クラウドAPIに頼らず、手元のPCだけでLLMを動かして学習まで完結させたい——そんな開発者向けに、Googleのオープンウェイトモデル「Gemma 4」が強力な選択肢になっています。

この記事では、Gemma 4の概要と8GB RAM環境でのローカル実行、自前データを使ったファインチューニングの手順を整理します。

この記事でわかること

Gemma 4ファミリーの構成と、8GB RAMで動かせるモデルの選び方
ローカル推論に使えるツールと、必要なメモリ量の目安
自前データで100%ローカルにファインチューニングするための設定

Gemma 4とは何が新しいか

Google DeepMindは2026年4月2日、オープンウェイトモデルファミリー「Gemma 4」をApache 2.0ライセンスで公開しました。Gemini 3と同じ研究基盤を土台に、推論・エージェント・コード生成・マルチモーダル処理を1つのモデル群にまとめています。

サイズはE2B（実効約23億パラメータ）、E4B（実効約45億）、26B-A4B（MoE）、31B Denseの4種類です。6月3日にはエンコーダーレス設計の「Gemma 4 12B」が追加され、テキスト・画像・音声を単一のLLMバックボーンで処理する統合アーキテクチャが特徴です。

Google公式ブログでは、Gemma 4の累計ダウンロード数が4億回を超え、コミュニティによる派生モデルが10万種類以上に達したと報じられています。31BはArena AIのテキストリーダーボードでオープンモデル3位、26Bは6位に入り、パラメータ数の20倍規模のモデルに匹敵する性能が示されています。

8GB RAMで動かせる理由

「8GB RAMでローカル実行できる」という話題の根拠は、量子化（モデル重みを低精度に圧縮する技術）とモデルサイズの組み合わせにあります。

Unslothのハードウェア要件表によると、4bit量子化時の推論メモリは次のとおりです。

モデル	4bit推論	8bit推論
E2B	4GB	5〜8GB
E4B	5.5〜6GB	9〜12GB
12B Unified	7〜8GB	13〜14GB

8GB RAMのPCで現実的に動かすなら、E2Bか12Bの4bit版が第一候補です。E2BはスマートフォンやRaspberry Pi向けに設計されたエッジ向けモデルで、テキスト・画像・音声の3モダリティに対応します。12Bは中規模モデルとして推論精度が高く、公式では16GBのVRAMまたはユニファイドメモリを推奨していますが、4bit量子化なら8GB帯でも動作可能です。

メモリの合計（RAM＋VRAM、またはMacのユニファイドメモリ）が量子化モデルのサイズを上回ることが前提です。足りない場合はllama.cppがディスクオフロードで動かせますが、生成速度は落ちます。

ローカル推論の始め方

Gemma 4は公開初日からllama.cpp、Ollama、MLX、Hugging Face Transformers、LM Studio、LiteRT-LMなど主要ツールに対応しています。手軽に試すならOllamaが向いています。

Ollama

Ollama is the easiest way to automate your work using open models, while keeping your data safe.

ollama.com

ollama run hf.co/unsloth/gemma-4-E2B-it-GGUF:Q8_0

MacのApple Siliconなら、Unslothが配布するMLX量子化版も選択肢です。GUIで操作したい場合はUnsloth Studioを使うと、モデルの検索・ダウンロード・推論パラメータ調整を1つの画面で行えます。

Gemma 4 - How to Run Locally | Unsloth Documentation

Run Google’s new Gemma 4 models locally, including E2B, E4B, 26B A4B, and 31B.

unsloth.ai

推論時の推奨パラメータはGoogle公式のデフォルトに合わせるのが無難です。temperature=1.0、top_p=0.95、top_k=64が基準値です。Gemma 4は「思考モード」を持ち、システムプロンプト先頭に<|think|>トークンを付けると内部推論を経てから回答を返します。応答を速くしたい場合は無効化します。

自前データで100%ローカルにファインチューニングする

クラウドにデータを送らず学習するには、LoRA（Low-Rank Adaptation）によるアダプター学習が現実的です。ベースモデルの重みは固定し、小さなアダプター層だけを更新するため、フルファインチューニングよりVRAMを大幅に節約できます。

Unslothのドキュメントでは、Gemma 4 E2BのLoRA学習に8GB VRAMで足りると明記されています。E4BのLoRAは17GB VRAMが必要で、8GB環境ではE2Bか12Bの4bit版が現実的なラインです。UnslothはGemma 4の学習で従来のFlash Attention 2構成と比べ、約1.5倍の速度と約60%少ないVRAM消費を実現すると報告しています。

学習の基本手順は次のとおりです。

Unslothをインストールする（curl -fsSL https://unsloth.ai/install.sh | sh）
Hugging Faceから対象モデル（例: unsloth/gemma-4-E2B-it）を4bit量子化で読み込む
LoRAアダプターを設定し、自前のJSONLやCSV形式のデータセットを渡す
gradient_checkpointing=Trueとpaged_adamw_8bitオプティマイザでVRAMを節約する
学習済みアダプターをGGUFなどの推論形式にエクスポートする

8GB VRAM環境ではper_device_train_batch_size=1とgradient_accumulation_steps=8の組み合わせが定石です。バッチサイズ1でGPUに載せきれない分を勾配蓄積で補い、実効バッチサイズ8相当の学習を行います。

Google公式のGemma 4 12B開発者ガイドでは、ビジョン・音声・テキストが同一の重みを共有するエンコーダーレス設計のため、LoRAやフルチューニングでマルチモーダル全体を1パスで更新できる点が強調されています。従来のように別々のエンコーダーを個別に調整する必要がありません。

Apache 2.0ライセンスのおかげで、学習データもインフラもモデルもすべて手元で管理できます。Google公式ブログは「データ、インフラ、モデルに対する完全なコントロール」と表現しており、企業のオンプレミス運用や規制業界での利用にも適しています。

注意点とモデル選定の目安

用途によってモデルを分けるのが効率的です。スマホやIoT向けの低遅延タスクならE2B、ラップトップでのマルチモーダル推論ならE4Bか12B、最高品質のオフラインコーディングなら26B-A4Bか31Bが向きます。

ファインチューニング時は、Unslothが修正した学習パイプラインを使うことが推奨されます。2026年4月時点でGemma 4の学習に関する複数のバグ（勾配蓄積時の損失爆発、推論時のインデックスエラーなど）がコミュニティで報告されており、Unsloth側で修正済みとされています。損失値が13〜15を大幅に超える場合は、学習設定の見直しが必要です。

音声入力は12B・E2B・E4Bに対応しますが、1回あたり最大30秒、動画は1FPSで最大60秒が上限です。長尺メディアの処理にはコンテキストウィンドウ（E2B/E4Bは128K、12B以上は256K）内に収める設計が求められます。

8GB RAMのPCでも、量子化とLoRAを組み合わせればGemma 4の推論とファインチューニングは十分現実的です。クラウド課金やAPIレート制限を気にせず、自社データでカスタムモデルを試せる環境が、一般向けGPUでも手の届くところまで来ています。