VS Code×ローカルLLMでCursorを置き換える手順

クラウド型AIエディタの無料枠は、本気の開発には足りなくなりつつあります。VS CodeにローカルLLMとllama-vscodeを載せれば、サブスク料金とレート制限から解放された開発環境を手に入れられます。

この記事でわかること

CursorやAntigravityの無料枠で困る理由
llama-vscodeとMoEモデルを組み合わせる利点
エージェントとMCPを使ったローカル運用の手順
自己ホスト環境の電力・プライバシー面のメリット

GitHub - ggml-org/llama.vscode: VS Code extension for LLM-assisted code/text completion

VS Code extension for LLM-assisted code/text completion - ggml-org/llama.vscode

GitHub

クラウドAIエディタの無料枠が開発の壁になる

CursorとGoogle Antigravityは、いずれもVS CodeをベースにしたAI統合エディタです。クラウド上の大規模言語モデル（LLM）をIDE内から呼び出せるため、コード補完やエージェント機能を手軽に使えます。

一方で、無料プランには厳しい利用制限があります。XDA DevelopersのAyush Pande氏は、CursorとAntigravityの無料版でトークン使用量が大きく制限されており、Antigravityではタイムアウトが頻発するため、LLMへ何度も問い合わせるプロジェクトでは使いづらいと報告しています（参考）。

複数のAIエディタに月額課金を重ねると、レート制限回避のために年間で数百ドル規模のコストになることもあります。クラウド型の利便性と引き換えに、利用量の上限とコストが常に頭をよぎる——これがローカル環境への移行を検討するきっかけになります。

MoEモデルがローカル推論の実用ラインを引き上げた

ローカルLLMを開発に使う最大の障壁は、モデルの推論能力です。9Bや12Bクラスの小型モデルは、文書のタグ付けやOCRテキスト生成には向きますが、コード解析やターミナルログの調査、脆弱性スキャンといった開発タスクには力が足りません。

Mixture-of-Experts（MoE）は、パラメータの一部だけを活性化する仕組みです。35Bクラスのモデルでも、12GB VRAMのGPUで量子化率を大きく下げずに動かせます。Pande氏はGPT-OSS-20B、Gemma-4-26B-A4B、Qwen3.6-35B-A3Bの3モデルを2か月以上試し、いずれも開発タスクに十分な性能を示したと報告しています。特にQwen3.6はクラウド型のライバルと互角の結果を出したとのことです。

以前はOllamaとContinue拡張の組み合わせを使っていたPande氏ですが、MoEモデルへの移行後はllama-vscodeに切り替えています。Proxmoxサーバーとゲーミング用ワークステーション上のllama-serverインスタンスと相性がよいと述べています。

llama-vscodeが担う役割

llama-vscode - Visual Studio Marketplace

Extension for Visual Studio Code - Local LLM-assisted text completion using llama.cpp

marketplace.visualstudio.com

llama-vscodeは、ggml-orgが公開するVS Code拡張機能です。llama.cppのHTTPサーバー（llama-server）とローカル通信し、コード補完・チャット・エージェント機能を提供します。

主な機能は次のとおりです。

FIM（Fill-in-the-Middle）対応モデルによるインライン補完
チャットパネルとLlama Agentによるエージェント的コーディング
Env（環境）プリセットによるモデル構成の一括管理
VS Codeに登録済みのMCPサーバーのツール連携
Hugging Faceからのモデル直接ダウンロード

拡張機能はコードファイルから一般文書まで幅広い入力を受け付けるため、コンテキストに関係のない情報が混ざりにくく、幻覚（ハルシネーション）のリスクを下げられます。適切なモデルを選べば、動作するコードスニペットの生成や信頼性の高い補完が可能です。

補完の応答速度はモデルによって差があります。Pande氏の検証では、オートコンプリート用途はQwen 2.5 Coderの小型バリアントが速く、Qwen3.6やGemma 4は数秒かかるものの、RAGベースのチャットやトラブルシューティングでは1分以内に正確な回答が得られたと報告されています（参考）。

セットアップの流れ

前提条件

VS Code（標準版）がインストール済みであること
NVIDIA GPUを搭載したマシン、またはCPUのみでも動作する小型モデルが利用可能であること
ローカルでllama-serverを動かす場合、十分なVRAMまたはシステムRAMがあること

手順

1. 拡張機能のインストール

VS Codeの拡張機能マーケットプレイスから「llama-vscode」（公開者: ggml-org）をインストールします。

2. llama.cppのセットアップ

ステータスバーの「llama-vscode」をクリックするか、Ctrl+Shift+M（macOSはCmd+Shift+M）でメニューを開き、「Install/Upgrade llama.cpp」を選択します。macOSとWindowsでは自動インストールに対応しています。Linuxではllama.cppのリリースページからバイナリを取得し、PATHに追加します。

3. 環境（Env）の選択

同じメニューから「Select/start env…」を選び、用途に合ったプリセットを起動します。公式READMEでは、補完のみ、チャット＋補完、チャット＋エージェント、gpt-oss 20Bを含むローカルフルパッケージなどが用意されています。VRAMに応じた推奨設定も公開されています。

4. リモートサーバーへの接続（任意）

別マシンでllama-serverを動かしている場合は、拡張機能の設定画面でエンドポイントURLにサーバーのIPアドレスを入力します。Completion、Chat、Embeddings、Toolsの4つの役割ごとにエンドポイントを分けて設定できます。

5. Llama Agentの起動

Ctrl+Shift+A（macOSはCmd+Shift+A）でLlama Agentを開き、エージェント対応のEnvを選択します。@ボタンでファイルをコンテキストに添付し、クエリを送信します。公式READMEではローカルモデルではgpt-oss 20Bが現時点で最適とされています。

エージェントとMCPで作業範囲を広げる

llama-vscodeのLlama Agentは、デフォルトのエージェントだけでも多くのコーディング状況に対応します。Pande氏は、タスク専用のカスタムエージェントを作成し、ツール数を細かく調整していると報告しています。エージェントを生成するエージェントも用意されており、チャット欄で目的を詳しく書けば機能するとのことです。

MCP（Model Context Protocol）は、LLMが外部ツールやサービスを呼び出すための標準プロトコルです。VS Code 1.99以降では、コマンドパレットの「MCP: Add Server」からMCPサーバーを登録できます。llama-vscodeのエージェントは、VS Codeにインストール済みのMCPサーバーが提供するツールを選択して利用できます。これにより、コード生成だけでなく、ファイル操作や外部アプリの制御までエージェントの作業範囲を広げられます。

llama-vscodeにはMCP以外にも9種類の内部ツールが組み込まれています。ファイルやWebページの内容を取得するcustom_tool、JavaScriptで自作できるcustom_eval_toolなど、エージェントのループ回数も設定画面から調整できます。

サブスク不要・プライバシー・電力の3つの利点

サブスク料金の回避

ローカル推論には月額課金が発生しません。クラウドLLMが数秒でコードファイル全体を生成するのに対し、MoEモデルは応答にやや時間がかかりますが、Pande氏はレート制限に達するよりマシだと評価しています。

プライバシーの確保

ホームラボの文書、早期アクセスのコードベース、機密プロジェクトをローカルLLMに渡しても、データがクラウドに送信されることはありません。企業の未公開コードを扱う開発者にとって、これは大きなメリットです。

推論時の電力消費は短時間のバースト

LLMの学習フェーズと推論フェーズでは電力消費の性質が異なります。Pande氏の環境では、推論タスク実行時にGPUが数秒間活性化し、処理後はアイドル状態に戻ると報告されています。24時間サーバーを稼働させる方が推論バーストより電力を消費しますが、Proxmox実験用とメインPCの用途を兼用しているため、追加コストは限定的だと述べています。

注意点とトラブルシューティング

補完モデルとチャットモデルの使い分け

応答速度を重視する補完には小型のコーディング特化モデル、複雑な質問応答にはMoEの大型モデル——という2段構えが実用的です。1つのモデルですべてをこなそうとすると、速度か精度かのどちらかで妥協が必要になります。

FIM対応モデルが必須

llama-vscodeの補完機能はFIM（Fill-in-the-Middle）に対応したモデルが必要です。ggml-orgがHugging Face上で公開しているコレクションから選ぶのが確実です。

llama-serverがPATHにない

拡張機能がローカルモデルを起動できない場合、ターミナルでllama-server --versionを実行し、コマンドが見つかるか確認してください。Linuxではバイナリのbin/フォルダをPATHに追加する必要があります。

MCPサーバーのセキュリティ

ローカルMCPサーバーはマシン上で任意のコードを実行できる場合があります。VS Codeの公式ドキュメントでも、信頼できるソースのサーバーのみを追加するよう注意喚起されています。設定を追加する前に、公開者とサーバー構成を確認してください。

Cursorとの違いを整理する

観点	Cursor / Antigravity	VS Code + llama-vscode
基盤	VS Codeフォーク	標準VS Code
AI推論	クラウドLLM	ローカルまたは自己ホスト
料金	無料枠あり、本格利用は月額課金	拡張機能・llama.cppは無料
レート制限	プランごとに上限あり	ハードウェア性能が上限
プライバシー	コードがクラウドに送信される	データはローカルに留まる
応答速度	クラウドの高性能モデルで高速	MoEでもクラウドより遅い場合あり

Pande氏は、ローカル環境への移行後「予想以上にあまり恋しくなかった」と述べています。性能面のトレードオフはあるものの、サブスクフリーでプライベートな開発環境を維持できる点が、実務での満足度を支えていると読み取れます。

ローカルLLMの実用性は、MoEアーキテクチャの登場で大きく変わりました。VS Codeという馴染みのIDEにllama-vscodeとMCPを載せる構成は、クラウドAIエディタの代替として今すぐ試せる選択肢です。手元のGPUとモデルを確認し、まずは「chat + agent」プリセットから始めてみてください。