Claude Code・CodexでオープンLLMをローカル実行

Claude Code や Codex を使っているなら、API コストが悩みの種になっていないだろうか。

2026年5月5日、Unsloth が Anthropic・OpenAI 互換の API エンドポイント機能を正式公開した。これにより、Claude Code、OpenAI Codex、OpenClaw といったコーディングエージェントに、ローカルで動く Gemma 4 や Qwen3.5 などのオープンモデルを接続できる。24GB RAM/VRAM のデバイスがあれば、月々の API コストをゼロに近づけられる。

この記事でわかること：

Unsloth Studio API エンドポイントが解決する課題
自己修復ツールコール・コード実行・ウェブ検索の仕組み
Claude Code への接続手順（3ステップ）
KV キャッシュ問題と速度低下の対処法

https://github.com/unslothai/unsloth

Claude Code でローカルLLMが使えなかった理由

ローカルLLMを Claude Code に接続する方法は以前から存在した。llama.cpp のサーバーを立て、ANTHROPIC_BASE_URL に向ける——手順自体はシンプルに見える。

実際に試すと壁にぶつかる。オープンLLMはツールコールの JSON フォーマットを頻繁に間違える。Claude Code がツールを呼び出すたびにエラーが起き、エージェントが止まる。コード実行やウェブ検索も自前で用意しなければならない。

Unsloth Studio は、これらの問題をまとめて解消する。

API エンドポイントの仕組み

Unsloth Studio は Mac・Windows・Linux で動くローカルLLM実行環境だ。2026年3月に公開され、5月5日のアップデートで外部クライアントから接続できる API エンドポイント機能が追加された。

デフォルトではポート 8888 でサーバーが起動し、2種類のエンドポイントを同一ポートで提供する。

/v1/messages（Anthropic Messages API 互換）： Claude Code、OpenClaw、Anthropic SDK が対象
/v1/chat/completions（OpenAI Chat Completions API 互換）：Codex、Cursor、Continue、Cline が対象

複数のサーバーを立てる必要はない。クライアント側が使うエンドポイントに合わせて自動的に処理が分かれる。

組み込まれた3つのサーバーサイド機能

API エンドポイントには、ローカルLLMの弱点を補う機能が標準で用意されている。

自己修復ツールコールは、モデルが出力したツールコールの JSON が壊れていたとき自動で補正する。公式によると、破損ツールコールの発生率を 50% 削減できるとしている。オープンLLMがエージェント用途で使いにくかった最大の理由がこの不安定さだったため、実用上の効果は大きい。

コード実行は、Python や Bash をサーバーサイドで実行し、その出力をモデルに返す。モデルが実行結果を確認しながら処理を進めるため、コードの正確さが上がる。

ウェブ検索は、URLを返すだけでなく実際にページを読みにいく。モデルが最新情報を参照しながら回答を生成できる。

これらの機能はリクエストに enable_tools: true と enabled_tools フィールドを含めることで有効になる。クライアントの設定変更は不要だ。

Claude Code への接続手順

Unsloth Studio を Claude Code から使う手順は3段階だ。

ステップ1: Unsloth Studio をインストールしてモデルをロードする

Mac / Linux / WSL でのインストールは1行で完了する。

curl -fsSL https://unsloth.ai/install.sh | sh

インストール後、モデルを CLI からロードする。24GB の RAM/VRAM であれば Gemma 4 26B (UD-Q4_K_XL) や Qwen3.5 35B-A3B (UD-Q4_K_XL) が動作の目安になる。

unsloth run --model unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

モデルのロードが完了すると、エンドポイントのURL（http://localhost:8888）と API キーがコンソールに表示される。

ステップ2: API キーを作成する

Unsloth Studio の左下のアバターアイコン → Settings → API に移動し、キー名を入力して「Create」をクリックする。sk-unsloth- で始まるキーが表示されるのでコピーしておく。作成直後にしか表示されないため注意が必要だ。

ステップ3: Claude Code に環境変数を設定する

Claude Code を起動する前に、同じターミナルで以下の3変数を設定する。

export ANTHROPIC_BASE_URL=http://localhost:8888
export ANTHROPIC_AUTH_TOKEN=sk-unsloth-xxxxxxxxxxxx
export ANTHROPIC_MODEL=gemma-local

claude コマンドで起動すると、Anthropic API の代わりにローカルモデルへリクエストが向く。/model コマンドで接続先を確認できる。

Codex（OpenAI Codex）の場合は /v1/chat/completions 互換のため、OPENAI_BASE_URL と OPENAI_API_KEY に同じ URL とキーを設定する形になる。OpenClaw も同様に /v1/messages エンドポイントを指定する。

KV キャッシュ問題と速度低下の対処法

Claude Code は2026年初頭から、リクエストに Attribution ヘッダーを付加するようになった。このヘッダーがローカルサーバーの KV キャッシュを無効化し、推論速度が最大 90% 低下するケースが報告されている（参考）。

対処するには ~/.claude/settings.json に以下を追記する。

{
  "env": {
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
  }
}

export CLAUDE_CODE_ATTRIBUTION_HEADER=0 では効果がなく、設定ファイルへの記述が必須だ。この1行を追加するだけで、速度が本来のパフォーマンスに戻る。

Unsloth Studio を選ぶ理由

ローカルLLMを Claude Code に接続する手段は他にもある。Ollama や LM Studio も同様の役割を果たせる。Unsloth Studio との違いは自己修復ツールコールにある。ツールコールが不安定なまま使い続けると、エージェントが途中で止まる頻度が高くなり、実用にならない。

Unsloth のオープンソース版は Google Colab や Kaggle Notebook でも動作するため、GPU を持っていない場合でも試せる。GGUF モデルの Hugging Face コレクションも Unsloth が公開しており、Gemma 4、Qwen3.5、DeepSeek などのモデルが UD-Q4_K_XL 形式（精度と圧縮のバランスが良い量子化）で提供されている。

コーディングエージェントのローカル化が現実的な選択肢になってきた。API コストと向き合いながら Claude Code を使っているなら、Unsloth Studio を試す価値は十分にある。