Googleが2026年4月にリリースしたオープンソースAIモデル「Gemma 4」は、クラウドを使わずにPCで動かせます。
クラウドAPIの利用料を抑えたい、機密データを外部に送りたくない、インターネット接続なしでAIを使いたい——そんな要望に応えるのがローカル実行です。
この記事では、Ollamaを使ってGemma 4をローカルにセットアップする手順を解説します。
この記事でわかること
- Gemma 4の各モデルの違いと選び方
- OllamaでGemma 4を動かすまでの手順
- ローカル実行でできることと活用例
Gemma 4とは
Gemma 4はGoogle DeepMindが2026年4月2日に公開したオープンソースのAIモデルです。Apache 2.0ライセンスで提供されており、商用利用も無料で行えます。
モデルは4種類あります。
| モデル | パラメーター数 | 特徴 |
|---|---|---|
| E2B | 2B(実効) | 最軽量。エッジデバイス向け |
| E4B | 4B(実効) | 軽量と性能のバランスが良い |
| 26B | 26B(MoE) | 混合専門家アーキテクチャ。特定タスク向け |
| 31B | 31B(Dense) | 最高性能。Arena AIテキストランキング3位 |
テキスト・画像・動画・音声に対応したマルチモーダルモデルで、140言語以上をサポートします。コンテキストウィンドウは最大256Kトークンです。
前提条件:ハードウェア要件
ローカルで動かすには、GPUのVRAMが必要です。
| モデル | 推奨VRAM |
|---|---|
| 2B・4B | 12GB以上 |
| 26B(MoE) | 16GB以上 |
| 31B(Dense) | 24GB以上 |
VRAMが不足する場合は、クラウドGPUレンタルサービスを使う選択肢もあります。
対応OSはWindows、macOS、Linuxです。
ステップ1: Ollamaをインストールする
OllamaはローカルでLLMを動かすためのオープンソースツールです。インストーラーを使えば、Gemma 4のセットアップが大幅に簡略化されます。
公式サイトからOSに合ったインストーラーをダウンロードして実行してください。
インストール後、ターミナルで以下のコマンドを実行してバージョンを確認します。
ollama version
ステップ2: Gemma 4モデルをダウンロードする
以下のコマンドでモデルをダウンロードします。用途やVRAMに合わせてサイズを選んでください。
# 4Bモデル(約2.5GB)
ollama pull gemma4:4b
# 12Bモデル(約7〜8GB)
ollama pull gemma4:12b
# 27Bモデル(約17GB)
ollama pull gemma4:27b
ダウンロード済みのモデルは以下のコマンドで確認できます。
ollama list
ステップ3: Gemma 4を実行する
モデルのダウンロードが完了したら、以下のコマンドで対話型のチャットを開始できます。
ollama run gemma4:4b
チャットを終了するには /bye またはCtrl+Dを入力します。
REST APIで利用する
Ollamaが起動している状態では、OpenAI互換のREST APIがポート11434で使えます。
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:4b",
"messages": [{"role": "user", "content": "Pythonでフィボナッチ数列を生成するコードを書いて"}]
}'
PythonやTypeScriptなどのアプリケーションからは、OpenAI SDKのベースURLを http://localhost:11434/v1 に変更するだけで接続できます。
活用できる主なシーン
ローカル実行が特に効果を発揮するのは以下のような用途です。
機密データの処理
医療記録、財務データ、個人情報などをクラウドに送らずにAIで処理できます。データが手元から出ないため、情報漏洩のリスクを抑えられます。
コード生成・レビュー
オフライン環境での開発補助や、コードのデバッグに使えます。APIのレート制限を気にせず、大量のコードを処理できます。
ドキュメント解析
PDFや画像内のテキスト読み取り(OCR)、グラフ・図表の解析が可能です。マルチモーダル対応のため、画像ファイルをそのまま入力できます。
まとめ
Gemma 4はApache 2.0ライセンスで無料利用できる、Googleのマルチモーダル対応AIモデルです。Ollamaを使えば3ステップでローカル環境に導入できます。
プライバシーの確保、コスト削減、オフライン対応——これらが必要な用途で特に力を発揮します。31Bモデルは400Bクラスのモデルと同等以上の性能を持ちながらローカルで動かせる点が、現時点での大きな強みです。
