Rapid-MLX：MacのLLM推論をOllamaより最大4倍速くするOSS

Apple Siliconを搭載したMacでローカルLLMを動かしているなら、今すぐ試したいツールがある。

Rapid-MLXは、Apple Silicon専用に設計されたローカルLLM推論エンジンです。Ollamaより2〜4倍速いという性能を持ち、OpenAI互換APIとして動作するためCursorやClaude Code、LangChainなどの既存ツールをそのまま使えます。

この記事でわかること:

Rapid-MLXがOllamaより速い理由
主な機能（ツールコール、プロンプトキャッシュ、マルチモーダル）
RAMの容量別おすすめモデルと速度目安
インストールから起動までの3ステップ
対応するクライアントとフレームワーク一覧

GitHub - raullenchai/Rapid-MLX: The fastest local AI engine for Apple Silicon. 4.2x faster than Ollama, 0.08s cached TTFT, 100% tool calling. 17 tool parsers, prompt cache, reasoning separation, cloud routing. Drop-in OpenAI replacement. Works with Claude Code, Cursor, Aider.

The fastest local AI engine for Apple Silicon. 4.2x faster than Ollama, 0.08s cached TTFT, 100% tool calling. 17 tool pa…

GitHub

Rapid-MLX とは

Rapid-MLXは、Apple Silicon向けのローカルLLM推論サービスです。2026年2月に公開され、GitHubスターは1,200を超えています。ライセンスはApache 2.0のオープンソースで、pipまたはHomebrewでインストールできます。

localhost:8000/v1 にOpenAI互換APIサーバーを立ち上げるため、ChatGPTのAPIに対応しているアプリであれば、向き先のURLを変えるだけでローカルLLMに切り替えられます。

なぜOllamaより速いのか

Rapid-MLXが高速な理由はAppleのMLXフレームワークを使っていることにあります。MLXはAppleが開発したApple Silicon専用のML計算ライブラリで、MシリーズチップのユニファイドメモリアーキテクチャとMetalコンピュートカーネルをネイティブに活用します。

Ollamaやllama.cppはC++ベースの汎用エンジンですが、Rapid-MLXはApple Siliconの構造に合わせて作られているため、多くのモデルで上回る速度を出せます。

Mac Studio M3 Ultra（256GB）でのベンチマーク結果は以下の通りです。

モデル	Rapid-MLX	Ollama	速度比
Phi-4 Mini 14B	180 tok/s	56 tok/s	3.2倍
Qwen3.5-9B	108 tok/s	41 tok/s	2.6倍
Nemotron-Nano 30B	141 tok/s	—	—
GPT-OSS 20B	127 tok/s	—	—

tok/s（トークン毎秒）は生成速度の指標で、数値が高いほど応答が速くなります。

主な機能

ツールコール（100%対応）

17種類のパーサーフォーマットに対応し、量子化モデルがツールコールを崩した場合も自動でリカバリーします。Qwen3.5、DeepSeek-R1、Gemmaなど主要モデルはパーサーが自動検出されるため、フラグ指定は不要です。

プロンプトキャッシュ

リクエスト間でキャッシュを維持し、2回目以降のターンは新しいトークンだけを処理します。標準的なTransformerモデルにはKVキャッシュのトリミングを、Qwen3.5のようなハイブリッドRNNモデルにはDeltaNetステートスナップショットを使い、すべてのアーキテクチャでTTFT（最初のトークンが出るまでの時間）を2〜5倍短縮します。

Kimi-Linear-48Bで0.08秒、Llama 3.2 3Bで0.10秒という数値が記録されています。

推論内容の分離

Qwen3やDeepSeek-R1のような思考プロセスを持つモデルの場合、チェーン・オブ・ソートの内容を reasoning_content フィールドに分離して出力します。回答本文の content を汚さないため、エージェントフレームワークで扱いやすくなります。

スマートクラウドルーティング

長いコンテキストのリクエストは、ローカルのプリフィルが遅くなると判断した時点でGPT-5やClaudeなどのクラウドLLMに自動転送できます。--cloud-model openai/gpt-5 --cloud-threshold 20000 のように閾値を設定するだけで動作します。

マルチモーダル

テキストのほか、視覚（Gemma 4、Qwen-VLなど）、音声（STT/TTS）、テキスト埋め込みに対応しています。いずれも同じOpenAI互換APIエンドポイントから呼び出せます。

RAMの容量別おすすめモデル

モデルはMacのRAMに収まるサイズを選ぶ必要があります。以下が目安です。

Mac	おすすめモデル	RAMの使用量	速度
16GB MacBook Air/Pro	Qwen3.5-4B 4bit	2.4GB	160 tok/s
24GB MacBook Pro	Qwen3.5-9B 4bit	5.1GB	108 tok/s
32GB Mac Mini/Studio	Nemotron-Nano 30B 4bit	18GB	141 tok/s
64GB Mac Mini/Studio	Qwen3.5-35B-A3B 8bit	37GB	83 tok/s
96GB+ Mac Studio/Pro	Qwen3.5-122B mxfp4	65GB	57 tok/s
128GB+ Mac Studio	DeepSeek V4 Flash 2bit DQ	91GB	56 tok/s

4bitモデルはメモリを抑えた量子化版で多くのユーザーに推奨されます。8bitモデルはより高品質ですが多くのRAMが必要です。

インストールと起動手順

インストールはpipかHomebrewのどちらかを選べます。Homebrewはバージョン管理が楽で推奨されています。

Step 1 — インストール

# Homebrew（推奨）
brew install raullenchai/rapid-mlx/rapid-mlx

# pip（Python 3.10以上が必要）
pip install rapid-mlx

Step 2 — モデルをサーブする

rapid-mlx serve qwen3.5-4b

初回実行時にモデルをダウンロードします（Qwen3.5-4Bは約2.5GB）。Ready: http://localhost:8000/v1 が表示されれば起動完了です。

Step 3 — チャットする

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

この状態でCursorなどのアプリをOpenAI APIのベースURLに http://localhost:8000/v1 を指定するだけで、ローカルLLMに切り替えられます。

対応クライアント・フレームワーク

動作確認済みの主なクライアントとフレームワークは以下の通りです。

ツール	種別	設定方法
Cursor	IDE	Settings → OpenAI Base URL に `http://localhost:8000/v1` を指定
Claude Code	エージェント	`OPENAI_BASE_URL=http://localhost:8000/v1 claude` で起動
Aider	エージェント	`--openai-api-base http://localhost:8000/v1` オプション
PydanticAI	フレームワーク	`OpenAIProvider(base_url=...)` で設定
LangChain	フレームワーク	`ChatOpenAI` の `base_url` を変更
Open WebUI	UI	Docker起動時に環境変数で指定

v0.6.11の変更点

2026年5月4日にリリースされたv0.6.11では、デフォルトのインストールサイズが782MB から445MBへと43%削減されました。視覚モデル用の依存ライブラリ（mlx-vlm、opencv、pandas等）を [vision] エクストラに分離したことによる変更です。

Qwen3.5やLlama、DeepSeekなどのテキストモデルを使う場合は pip install rapid-mlx のままで問題ありません。Gemma 4やQwen-VLなどの視覚モデルを使う場合は pip install 'rapid-mlx[vision]' が必要になります。

まとめ

Rapid-MLXはApple SiliconのMLXフレームワークを活かし、OllamaやC++ベースのエンジンより高速なローカルLLM推論を実現しています。OpenAI互換APIのため既存ツールをほぼそのまま使えます。

16GBのMacBook Airでも160 tok/sという実用的な速度が出るため、Mac上でローカルLLMを使いたい開発者にとって選択肢として検討する価値があります。