クラウドAPIに頼らず、手元のPCだけでLLMを動かして学習まで完結させたい——そんな開発者向けに、Googleのオープンウェイトモデル「Gemma 4」が強力な選択肢になっています。
この記事では、Gemma 4の概要と8GB RAM環境でのローカル実行、自前データを使ったファインチューニングの手順を整理します。
この記事でわかること
- Gemma 4ファミリーの構成と、8GB RAMで動かせるモデルの選び方
- ローカル推論に使えるツールと、必要なメモリ量の目安
- 自前データで100%ローカルにファインチューニングするための設定
Gemma 4とは何が新しいか
Google DeepMindは2026年4月2日、オープンウェイトモデルファミリー「Gemma 4」をApache 2.0ライセンスで公開しました。Gemini 3と同じ研究基盤を土台に、推論・エージェント・コード生成・マルチモーダル処理を1つのモデル群にまとめています。
サイズはE2B(実効約23億パラメータ)、E4B(実効約45億)、26B-A4B(MoE)、31B Denseの4種類です。6月3日にはエンコーダーレス設計の「Gemma 4 12B」が追加され、テキスト・画像・音声を単一のLLMバックボーンで処理する統合アーキテクチャが特徴です。
Google公式ブログでは、Gemma 4の累計ダウンロード数が4億回を超え、コミュニティによる派生モデルが10万種類以上に達したと報じられています。31BはArena AIのテキストリーダーボードでオープンモデル3位、26Bは6位に入り、パラメータ数の20倍規模のモデルに匹敵する性能が示されています。
8GB RAMで動かせる理由
「8GB RAMでローカル実行できる」という話題の根拠は、量子化(モデル重みを低精度に圧縮する技術)とモデルサイズの組み合わせにあります。
Unslothのハードウェア要件表によると、4bit量子化時の推論メモリは次のとおりです。
| モデル | 4bit推論 | 8bit推論 |
|---|---|---|
| E2B | 4GB | 5〜8GB |
| E4B | 5.5〜6GB | 9〜12GB |
| 12B Unified | 7〜8GB | 13〜14GB |
8GB RAMのPCで現実的に動かすなら、E2Bか12Bの4bit版が第一候補です。E2BはスマートフォンやRaspberry Pi向けに設計されたエッジ向けモデルで、テキスト・画像・音声の3モダリティに対応します。12Bは中規模モデルとして推論精度が高く、公式では16GBのVRAMまたはユニファイドメモリを推奨していますが、4bit量子化なら8GB帯でも動作可能です。
メモリの合計(RAM+VRAM、またはMacのユニファイドメモリ)が量子化モデルのサイズを上回ることが前提です。足りない場合はllama.cppがディスクオフロードで動かせますが、生成速度は落ちます。
ローカル推論の始め方
Gemma 4は公開初日からllama.cpp、Ollama、MLX、Hugging Face Transformers、LM Studio、LiteRT-LMなど主要ツールに対応しています。手軽に試すならOllamaが向いています。
ollama run hf.co/unsloth/gemma-4-E2B-it-GGUF:Q8_0
MacのApple Siliconなら、Unslothが配布するMLX量子化版も選択肢です。GUIで操作したい場合はUnsloth Studioを使うと、モデルの検索・ダウンロード・推論パラメータ調整を1つの画面で行えます。
推論時の推奨パラメータはGoogle公式のデフォルトに合わせるのが無難です。temperature=1.0、top_p=0.95、top_k=64が基準値です。Gemma 4は「思考モード」を持ち、システムプロンプト先頭に<|think|>トークンを付けると内部推論を経てから回答を返します。応答を速くしたい場合は無効化します。
自前データで100%ローカルにファインチューニングする
クラウドにデータを送らず学習するには、LoRA(Low-Rank Adaptation)によるアダプター学習が現実的です。ベースモデルの重みは固定し、小さなアダプター層だけを更新するため、フルファインチューニングよりVRAMを大幅に節約できます。
Unslothのドキュメントでは、Gemma 4 E2BのLoRA学習に8GB VRAMで足りると明記されています。E4BのLoRAは17GB VRAMが必要で、8GB環境ではE2Bか12Bの4bit版が現実的なラインです。UnslothはGemma 4の学習で従来のFlash Attention 2構成と比べ、約1.5倍の速度と約60%少ないVRAM消費を実現すると報告しています。
学習の基本手順は次のとおりです。
- Unslothをインストールする(
curl -fsSL https://unsloth.ai/install.sh | sh) - Hugging Faceから対象モデル(例:
unsloth/gemma-4-E2B-it)を4bit量子化で読み込む - LoRAアダプターを設定し、自前のJSONLやCSV形式のデータセットを渡す
gradient_checkpointing=Trueとpaged_adamw_8bitオプティマイザでVRAMを節約する- 学習済みアダプターをGGUFなどの推論形式にエクスポートする
8GB VRAM環境ではper_device_train_batch_size=1とgradient_accumulation_steps=8の組み合わせが定石です。バッチサイズ1でGPUに載せきれない分を勾配蓄積で補い、実効バッチサイズ8相当の学習を行います。
Google公式のGemma 4 12B開発者ガイドでは、ビジョン・音声・テキストが同一の重みを共有するエンコーダーレス設計のため、LoRAやフルチューニングでマルチモーダル全体を1パスで更新できる点が強調されています。従来のように別々のエンコーダーを個別に調整する必要がありません。
Apache 2.0ライセンスのおかげで、学習データもインフラもモデルもすべて手元で管理できます。Google公式ブログは「データ、インフラ、モデルに対する完全なコントロール」と表現しており、企業のオンプレミス運用や規制業界での利用にも適しています。
注意点とモデル選定の目安
用途によってモデルを分けるのが効率的です。スマホやIoT向けの低遅延タスクならE2B、ラップトップでのマルチモーダル推論ならE4Bか12B、最高品質のオフラインコーディングなら26B-A4Bか31Bが向きます。
ファインチューニング時は、Unslothが修正した学習パイプラインを使うことが推奨されます。2026年4月時点でGemma 4の学習に関する複数のバグ(勾配蓄積時の損失爆発、推論時のインデックスエラーなど)がコミュニティで報告されており、Unsloth側で修正済みとされています。損失値が13〜15を大幅に超える場合は、学習設定の見直しが必要です。
音声入力は12B・E2B・E4Bに対応しますが、1回あたり最大30秒、動画は1FPSで最大60秒が上限です。長尺メディアの処理にはコンテキストウィンドウ(E2B/E4Bは128K、12B以上は256K)内に収める設計が求められます。
8GB RAMのPCでも、量子化とLoRAを組み合わせればGemma 4の推論とファインチューニングは十分現実的です。クラウド課金やAPIレート制限を気にせず、自社データでカスタムモデルを試せる環境が、一般向けGPUでも手の届くところまで来ています。

