Apple Siliconを搭載したMacでローカルLLMを動かしているなら、今すぐ試したいツールがある。
Rapid-MLXは、Apple Silicon専用に設計されたローカルLLM推論エンジンです。Ollamaより2〜4倍速いという性能を持ち、OpenAI互換APIとして動作するためCursorやClaude Code、LangChainなどの既存ツールをそのまま使えます。
この記事でわかること:
- Rapid-MLXがOllamaより速い理由
- 主な機能(ツールコール、プロンプトキャッシュ、マルチモーダル)
- RAMの容量別おすすめモデルと速度目安
- インストールから起動までの3ステップ
- 対応するクライアントとフレームワーク一覧
Rapid-MLX とは
Rapid-MLXは、Apple Silicon向けのローカルLLM推論サービスです。2026年2月に公開され、GitHubスターは1,200を超えています。ライセンスはApache 2.0のオープンソースで、pipまたはHomebrewでインストールできます。
localhost:8000/v1 にOpenAI互換APIサーバーを立ち上げるため、ChatGPTのAPIに対応しているアプリであれば、向き先のURLを変えるだけでローカルLLMに切り替えられます。
なぜOllamaより速いのか
Rapid-MLXが高速な理由はAppleのMLXフレームワークを使っていることにあります。MLXはAppleが開発したApple Silicon専用のML計算ライブラリで、MシリーズチップのユニファイドメモリアーキテクチャとMetalコンピュートカーネルをネイティブに活用します。
Ollamaやllama.cppはC++ベースの汎用エンジンですが、Rapid-MLXはApple Siliconの構造に合わせて作られているため、多くのモデルで上回る速度を出せます。
Mac Studio M3 Ultra(256GB)でのベンチマーク結果は以下の通りです。
| モデル | Rapid-MLX | Ollama | 速度比 |
|---|---|---|---|
| Phi-4 Mini 14B | 180 tok/s | 56 tok/s | 3.2倍 |
| Qwen3.5-9B | 108 tok/s | 41 tok/s | 2.6倍 |
| Nemotron-Nano 30B | 141 tok/s | — | — |
| GPT-OSS 20B | 127 tok/s | — | — |
tok/s(トークン毎秒)は生成速度の指標で、数値が高いほど応答が速くなります。
主な機能
ツールコール(100%対応)
17種類のパーサーフォーマットに対応し、量子化モデルがツールコールを崩した場合も自動でリカバリーします。Qwen3.5、DeepSeek-R1、Gemmaなど主要モデルはパーサーが自動検出されるため、フラグ指定は不要です。
プロンプトキャッシュ
リクエスト間でキャッシュを維持し、2回目以降のターンは新しいトークンだけを処理します。標準的なTransformerモデルにはKVキャッシュのトリミングを、Qwen3.5のようなハイブリッドRNNモデルにはDeltaNetステートスナップショットを使い、すべてのアーキテクチャでTTFT(最初のトークンが出るまでの時間)を2〜5倍短縮します。
Kimi-Linear-48Bで0.08秒、Llama 3.2 3Bで0.10秒という数値が記録されています。
推論内容の分離
Qwen3やDeepSeek-R1のような思考プロセスを持つモデルの場合、チェーン・オブ・ソートの内容を reasoning_content フィールドに分離して出力します。回答本文の content を汚さないため、エージェントフレームワークで扱いやすくなります。
スマートクラウドルーティング
長いコンテキストのリクエストは、ローカルのプリフィルが遅くなると判断した時点でGPT-5やClaudeなどのクラウドLLMに自動転送できます。--cloud-model openai/gpt-5 --cloud-threshold 20000 のように閾値を設定するだけで動作します。
マルチモーダル
テキストのほか、視覚(Gemma 4、Qwen-VLなど)、音声(STT/TTS)、テキスト埋め込みに対応しています。いずれも同じOpenAI互換APIエンドポイントから呼び出せます。
RAMの容量別おすすめモデル
モデルはMacのRAMに収まるサイズを選ぶ必要があります。以下が目安です。
| Mac | おすすめモデル | RAMの使用量 | 速度 |
|---|---|---|---|
| 16GB MacBook Air/Pro | Qwen3.5-4B 4bit | 2.4GB | 160 tok/s |
| 24GB MacBook Pro | Qwen3.5-9B 4bit | 5.1GB | 108 tok/s |
| 32GB Mac Mini/Studio | Nemotron-Nano 30B 4bit | 18GB | 141 tok/s |
| 64GB Mac Mini/Studio | Qwen3.5-35B-A3B 8bit | 37GB | 83 tok/s |
| 96GB+ Mac Studio/Pro | Qwen3.5-122B mxfp4 | 65GB | 57 tok/s |
| 128GB+ Mac Studio | DeepSeek V4 Flash 2bit DQ | 91GB | 56 tok/s |
4bitモデルはメモリを抑えた量子化版で多くのユーザーに推奨されます。8bitモデルはより高品質ですが多くのRAMが必要です。
インストールと起動手順
インストールはpipかHomebrewのどちらかを選べます。Homebrewはバージョン管理が楽で推奨されています。
Step 1 — インストール
# Homebrew(推奨)
brew install raullenchai/rapid-mlx/rapid-mlx
# pip(Python 3.10以上が必要)
pip install rapid-mlx
Step 2 — モデルをサーブする
rapid-mlx serve qwen3.5-4b
初回実行時にモデルをダウンロードします(Qwen3.5-4Bは約2.5GB)。Ready: http://localhost:8000/v1 が表示されれば起動完了です。
Step 3 — チャットする
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'
この状態でCursorなどのアプリをOpenAI APIのベースURLに http://localhost:8000/v1 を指定するだけで、ローカルLLMに切り替えられます。
対応クライアント・フレームワーク
動作確認済みの主なクライアントとフレームワークは以下の通りです。
| ツール | 種別 | 設定方法 |
|---|---|---|
| Cursor | IDE | Settings → OpenAI Base URL に http://localhost:8000/v1 を指定 |
| Claude Code | エージェント | OPENAI_BASE_URL=http://localhost:8000/v1 claude で起動 |
| Aider | エージェント | --openai-api-base http://localhost:8000/v1 オプション |
| PydanticAI | フレームワーク | OpenAIProvider(base_url=...) で設定 |
| LangChain | フレームワーク | ChatOpenAI の base_url を変更 |
| Open WebUI | UI | Docker起動時に環境変数で指定 |
v0.6.11の変更点
2026年5月4日にリリースされたv0.6.11では、デフォルトのインストールサイズが782MB から445MBへと43%削減されました。視覚モデル用の依存ライブラリ(mlx-vlm、opencv、pandas等)を [vision] エクストラに分離したことによる変更です。
Qwen3.5やLlama、DeepSeekなどのテキストモデルを使う場合は pip install rapid-mlx のままで問題ありません。Gemma 4やQwen-VLなどの視覚モデルを使う場合は pip install 'rapid-mlx[vision]' が必要になります。
まとめ
Rapid-MLXはApple SiliconのMLXフレームワークを活かし、OllamaやC++ベースのエンジンより高速なローカルLLM推論を実現しています。OpenAI互換APIのため既存ツールをほぼそのまま使えます。
16GBのMacBook Airでも160 tok/sという実用的な速度が出るため、Mac上でローカルLLMを使いたい開発者にとって選択肢として検討する価値があります。