Claude CodeをGemma 4でローカル無料実行する方法

月額200ドルのAPIコストなしに、Claude Codeのエージェント機能をフル活用できる。

この記事では、GoogleのオープンソースモデルGemma 4とOllamaを使って、Claude Codeを完全ローカルで無料実行するセットアップ手順を解説します。

この記事でわかること:

Claude Codeをローカル実行する仕組みと前提条件
Ollama + Gemma 4の具体的なセットアップ手順
公式版との品質差と使い分けの考え方

Claude Codeとは

Claude CodeはAnthropicが提供するコーディング特化のCLIエージェントです。ファイルの読み書き、コード生成、ターミナル実行、Git操作を会話形式で指示できます。

通常、動作にはAnthropicのAPIキーが必要で、使用量に応じた従量課金が発生します。しかし、Claude Code自体はモデルとは分離したシェルであり、リクエスト先のAPIエンドポイントを変更できます。つまり、ローカルで動くOpenAI互換のAPIサーバーを用意すれば、無料で動かせます。

なぜローカル実行が注目されているか

Claude Code MaxプランはAPIコストが月額200ドルを超えることがあります。加えて、企業のNDAや規制業種では、ソースコードを外部クラウドへ送信できないケースが多くあります。

モデルのコスト低下も追い風です。Stanford HAI AI Index 2025レポートによれば、LLMの推論コストは2022年末から2024年にかけて280倍以上低下しました（参考）。現在、ローカル推論の実効コストは1トークンあたり約0.02セントとされています。

Gemma 4とは

GoogleのDeepMindが2026年4月2日に公開したオープンウェイトモデルです。

Gemma — Google DeepMind

ai.google.dev

31BパラメータのDenseモデルはLiveCodeBench v6で80.0%、SWE-bench Verifiedで77.8%を記録しており、1年前の400B超モデルに相当するコーディング性能を持ちます。ライセンスはApache 2.0で商用利用が可能、モデルの重みを自由にダウンロードできます。

26B MoEバリアントはMixture-of-Expertsアーキテクチャにより、推論時に実際に動くパラメータが約3.8Bに絞られます。31B Denseと近い品質でありながらメモリ使用量を大幅に抑えられる点が特徴です。

動作に必要なハードウェア

モデル	推奨RAM	用途
gemma4:8b（デフォルト）	16GB	軽量作業・テスト用
gemma4:26b（MoE）	16〜18GB	日常的なコーディング
gemma4:31b（Dense）	24GB以上	品質重視の用途

Apple Silicon（M1以降）やVRAM 24GBのGPUを搭載したマシンであれば、26Bモデルが快適に動きます。Mac Mini M4 Proは32GBモデルが7万円台から購入できるため、コスト対効果の高い選択肢です。

セットアップ手順

1. Ollamaをインストールする

ollama.com からインストーラーをダウンロードするか、macOSではHomebrewで導入します。

brew install --cask ollama-app

インストール後、Ollamaアプリをアプリケーションフォルダから起動し、初回セットアップを完了させます。バージョン確認で動作を確認します。

ollama --version

2. Gemma 4モデルをダウンロードする

ハードウェアに合わせてモデルを選択します。大半のマシンでは26Bモデルが品質と速度のバランスが取れています。

# 26B MoEモデル（推奨）
ollama pull gemma4:26b

# 8Bモデル（低スペック環境向け）
ollama pull gemma4

ダウンロード完了後、ollama listでモデルが表示されることを確認します。

3. Claude Codeをインストールする

# macOS / Linux / WSL
curl -fsSL https://claude.ai/install.sh | bash

4. Claude CodeをGemma 4で起動する

Ollamaのlaunch claudeコマンドで、Claude CodeをGemma 4バックエンドとして起動します。

ollama launch claude --model gemma4:26b

このコマンドが内部でAnthropicAPIのエンドポイントをローカルのOllamaサーバーに差し替えます。APIキーは不要で、コードはマシン外に送信されません。

5. コンテキストウィンドウを拡張する（任意）

大きなコードベースを扱う場合、Modelfileでコンテキストを64Kトークンに広げます。

printf 'FROM gemma4:26b\nPARAMETER num_ctx 65536' > /tmp/Modelfile-64k
ollama create gemma4-26b-64k -f /tmp/Modelfile-64k
ollama launch claude --model gemma4-26b-64k

使用感と品質の差

Gemma 4 26Bは関数の生成、バグ修正、コードの説明など単一ファイルを対象とした作業であれば実用的なレベルで動作します。独立した機能の実装、HTTPエンドポイントのスキャフォールド、明確なエラートレースのデバッグは特に得意です。

一方で、5〜6ファイルを横断する複雑なアーキテクチャ変更や、抽象度が高い設計判断を伴うタスクでは精度が下がります。gemma4-ai.comのレビューによると、複数ファイルにまたがる推論の品質は公式版と比べてModeraにとどまるとされています（参考）。

項目	公式Claude Code	Gemma 4 26B（ローカル）
コード生成品質	優秀	良好（GPT-4相当）
複数ファイル推論	優秀	中程度
プライバシー	データが外部へ	完全ローカル
オフライン実行	不可	可能
月額コスト	要APIキー課金	$0

日常的なコーディング作業の80%前後をローカルで処理し、複雑な設計判断のみ公式APIを使う使い分けが現実的です。この運用でAPIコストを70〜80%削減できると、いくつかの事例で報告されています。

注意点

ollama launch claudeはAnthropicのAPIエンドポイントをローカルのプロキシに差し替えます。Anthropicの利用規約の変更によっては、アカウントへのリスクが生じる可能性があります。企業での導入前には法務・セキュリティチームへの確認を推奨します。

また、Claude Code Routerを使った別の方法もあります。こちらはNode.js製の薄いプロキシで、ANTHROPIC_BASE_URL環境変数をローカルサーバーに向けることでClaude Codeを動かします。詳細はGitHubで「claude-code-router」を検索してください。

まとめ

Gemma 4とOllamaを組み合わせると、Claude Codeのエージェント機能をコストゼロ・完全プライベートで利用できます。セットアップは10分以内で完了し、日常的なコーディング作業であれば公式版に近いアウトプットが得られます。コスト節約や法令上の制約でクラウドAPIを避けたい場合の実用的な選択肢です。