Apple Siliconを搭載したMacでローカルLLMを動かしているなら、今すぐ試したいツールがある。

Rapid-MLXは、Apple Silicon専用に設計されたローカルLLM推論エンジンです。Ollamaより2〜4倍速いという性能を持ち、OpenAI互換APIとして動作するためCursorやClaude Code、LangChainなどの既存ツールをそのまま使えます。

この記事でわかること:

  • Rapid-MLXがOllamaより速い理由
  • 主な機能(ツールコール、プロンプトキャッシュ、マルチモーダル)
  • RAMの容量別おすすめモデルと速度目安
  • インストールから起動までの3ステップ
  • 対応するクライアントとフレームワーク一覧

Rapid-MLX とは

Rapid-MLXは、Apple Silicon向けのローカルLLM推論サービスです。2026年2月に公開され、GitHubスターは1,200を超えています。ライセンスはApache 2.0のオープンソースで、pipまたはHomebrewでインストールできます。

localhost:8000/v1 にOpenAI互換APIサーバーを立ち上げるため、ChatGPTのAPIに対応しているアプリであれば、向き先のURLを変えるだけでローカルLLMに切り替えられます。

なぜOllamaより速いのか

Rapid-MLXが高速な理由はAppleのMLXフレームワークを使っていることにあります。MLXはAppleが開発したApple Silicon専用のML計算ライブラリで、MシリーズチップのユニファイドメモリアーキテクチャとMetalコンピュートカーネルをネイティブに活用します。

Ollamaやllama.cppはC++ベースの汎用エンジンですが、Rapid-MLXはApple Siliconの構造に合わせて作られているため、多くのモデルで上回る速度を出せます。

Mac Studio M3 Ultra(256GB)でのベンチマーク結果は以下の通りです。

モデル Rapid-MLX Ollama 速度比
Phi-4 Mini 14B 180 tok/s 56 tok/s 3.2倍
Qwen3.5-9B 108 tok/s 41 tok/s 2.6倍
Nemotron-Nano 30B 141 tok/s
GPT-OSS 20B 127 tok/s

tok/s(トークン毎秒)は生成速度の指標で、数値が高いほど応答が速くなります。

主な機能

ツールコール(100%対応)

17種類のパーサーフォーマットに対応し、量子化モデルがツールコールを崩した場合も自動でリカバリーします。Qwen3.5、DeepSeek-R1、Gemmaなど主要モデルはパーサーが自動検出されるため、フラグ指定は不要です。

プロンプトキャッシュ

リクエスト間でキャッシュを維持し、2回目以降のターンは新しいトークンだけを処理します。標準的なTransformerモデルにはKVキャッシュのトリミングを、Qwen3.5のようなハイブリッドRNNモデルにはDeltaNetステートスナップショットを使い、すべてのアーキテクチャでTTFT(最初のトークンが出るまでの時間)を2〜5倍短縮します。

Kimi-Linear-48Bで0.08秒、Llama 3.2 3Bで0.10秒という数値が記録されています。

推論内容の分離

Qwen3やDeepSeek-R1のような思考プロセスを持つモデルの場合、チェーン・オブ・ソートの内容を reasoning_content フィールドに分離して出力します。回答本文の content を汚さないため、エージェントフレームワークで扱いやすくなります。

スマートクラウドルーティング

長いコンテキストのリクエストは、ローカルのプリフィルが遅くなると判断した時点でGPT-5やClaudeなどのクラウドLLMに自動転送できます。--cloud-model openai/gpt-5 --cloud-threshold 20000 のように閾値を設定するだけで動作します。

マルチモーダル

テキストのほか、視覚(Gemma 4、Qwen-VLなど)、音声(STT/TTS)、テキスト埋め込みに対応しています。いずれも同じOpenAI互換APIエンドポイントから呼び出せます。

RAMの容量別おすすめモデル

モデルはMacのRAMに収まるサイズを選ぶ必要があります。以下が目安です。

Mac おすすめモデル RAMの使用量 速度
16GB MacBook Air/Pro Qwen3.5-4B 4bit 2.4GB 160 tok/s
24GB MacBook Pro Qwen3.5-9B 4bit 5.1GB 108 tok/s
32GB Mac Mini/Studio Nemotron-Nano 30B 4bit 18GB 141 tok/s
64GB Mac Mini/Studio Qwen3.5-35B-A3B 8bit 37GB 83 tok/s
96GB+ Mac Studio/Pro Qwen3.5-122B mxfp4 65GB 57 tok/s
128GB+ Mac Studio DeepSeek V4 Flash 2bit DQ 91GB 56 tok/s

4bitモデルはメモリを抑えた量子化版で多くのユーザーに推奨されます。8bitモデルはより高品質ですが多くのRAMが必要です。

インストールと起動手順

インストールはpipかHomebrewのどちらかを選べます。Homebrewはバージョン管理が楽で推奨されています。

Step 1 — インストール

# Homebrew(推奨)
brew install raullenchai/rapid-mlx/rapid-mlx

# pip(Python 3.10以上が必要)
pip install rapid-mlx

Step 2 — モデルをサーブする

rapid-mlx serve qwen3.5-4b

初回実行時にモデルをダウンロードします(Qwen3.5-4Bは約2.5GB)。Ready: http://localhost:8000/v1 が表示されれば起動完了です。

Step 3 — チャットする

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

この状態でCursorなどのアプリをOpenAI APIのベースURLに http://localhost:8000/v1 を指定するだけで、ローカルLLMに切り替えられます。

対応クライアント・フレームワーク

動作確認済みの主なクライアントとフレームワークは以下の通りです。

ツール 種別 設定方法
Cursor IDE Settings → OpenAI Base URL に http://localhost:8000/v1 を指定
Claude Code エージェント OPENAI_BASE_URL=http://localhost:8000/v1 claude で起動
Aider エージェント --openai-api-base http://localhost:8000/v1 オプション
PydanticAI フレームワーク OpenAIProvider(base_url=...) で設定
LangChain フレームワーク ChatOpenAIbase_url を変更
Open WebUI UI Docker起動時に環境変数で指定

v0.6.11の変更点

2026年5月4日にリリースされたv0.6.11では、デフォルトのインストールサイズが782MB から445MBへと43%削減されました。視覚モデル用の依存ライブラリ(mlx-vlm、opencv、pandas等)を [vision] エクストラに分離したことによる変更です。

Qwen3.5やLlama、DeepSeekなどのテキストモデルを使う場合は pip install rapid-mlx のままで問題ありません。Gemma 4やQwen-VLなどの視覚モデルを使う場合は pip install 'rapid-mlx[vision]' が必要になります。

まとめ

Rapid-MLXはApple SiliconのMLXフレームワークを活かし、OllamaやC++ベースのエンジンより高速なローカルLLM推論を実現しています。OpenAI互換APIのため既存ツールをほぼそのまま使えます。

16GBのMacBook Airでも160 tok/sという実用的な速度が出るため、Mac上でローカルLLMを使いたい開発者にとって選択肢として検討する価値があります。