ds4：128GB MacでDeepSeek 284Bが動く仕組み

Redisの作者Salvatore Sanfilippo（antirez）が2026年5月初旬、GitHubに新しいリポジトリを公開した。名前は「ds4」。DeepSeek V4 Flash専用のローカル推論エンジンで、動作条件は「128GB以上のメモリを積んだApple Silicon Mac」に絞られている。

この記事でわかること：

ds4がllama.cppと根本的に異なる設計思想
KVキャッシュをディスクに置くことで何が変わるか
284BモデルがMacBookに収まる非対称2-bit量子化の仕組み
Claude CodeやopenCodeからそのまま使えるAPIエンドポイント
M4 Max 128GBでの実測値とセットアップ手順

GitHub - antirez/ds4: DeepSeek 4 Flash local inference engine for Metal and CUDA

DeepSeek 4 Flash local inference engine for Metal and CUDA - antirez/ds4

GitHub

ds4とは

ds4はC言語で書かれた軽量な推論エンジンです。汎用GGUFローダーでも、他のランタイムのラッパーでもありません。READMEには「This project takes a deliberately narrow bet: one model at a time」と明記されています。

対応モデルは現時点でDeepSeek V4 Flashの1種類のみです。これは制約ではなく意図的な設計判断で、「推論エンジン・GGUFファイル・エージェント連携をend-to-endで完成させる」ことに集中するための選択です。

128GB以上のメモリを積んだApple Silicon MacでDeepSeek V4 Flash（284Bパラメータ）を実用的な速度で動かす——1年前なら冗談にしか聞こえなかった光景を、ds4は実現しています。

なぜDeepSeek V4 Flashなのか

antirezがこのモデルを選んだ背景には、「このモデルなら専用エンジンを書く労力がペイする」という経済合理性の判断があります。

MoE（Mixture-of-Experts）アーキテクチャによってアクティブパラメータが少なく推論が速い点、thinkingセクションの長さが問題の複雑さに比例するため実用域で使える点、KVキャッシュが極端に圧縮されている点が主な根拠です。最後の点が、次のセクションで解説するディスクKVキャッシュを成立させる前提条件になっています。

3つの核心的な仕組み

ディスクKVキャッシュ

従来のLLM推論では、KVキャッシュはRAMに置くものとされてきました。セッションが終われば消え、次のリクエストでは最初からプリフィルし直す。

ds4はこの前提を覆します。DeepSeek V4 FlashのKVキャッシュは極限まで圧縮されており、最新MacBookのSSDは秒間数GBを読み込める。ならば、KVキャッシュをSSDに保存しておけばいい、というシンプルな発想です。

TechnoEdgeの松尾公也氏によるM4 Max 128GBでの検証では（参考）、同じ1364トークンのプロンプトを2回投げた結果、1回目のプリフィル時間4.813秒が2回目は0.282秒になりました。18倍の高速化です。

Claude Codeは起動時に約25,000トークンのシステムプロンプトを送信します。毎回4.8秒待つのと5ms（5ミリ秒）で済むのとでは、ローカルエージェント運用の体感が根本的に変わります。

非対称2-bit量子化

ds4の量子化アプローチは「全部を均等に2-bitに圧縮する」ではありません。ルーティング先のMoEエキスパートのみをIQ2_XXS / Q2_K（2-bit）に圧縮し、共有エキスパート・projection・出力層はQ8_0またはF16のまま残します。

量子化に弱い部分を高精度で保護しながら、モデル容量の大半を占めるエキスパートを刈り込む。結果として284Bのモデルが約81GBに収まり、128GB MacBookで動かせる均衡点に着地しています。

OpenAI / Anthropic互換エンドポイント

ds4-serverはポート8000でHTTP APIを提供します。OpenAI互換の /v1/chat/completions とAnthropic互換の /v1/messages の両エンドポイントが動作します。

Claude CodeはAnthropicエンドポイントを使うため、環境変数を数行書き換えるだけでds4-serverをバックエンドとして利用できます。opencode、Piなどのエージェントクライアントも同様の手順で接続可能です。

セットアップ手順

ビルドはきわめてシンプルです。

git clone https://github.com/antirez/ds4.git
cd ds4
make
./download_model.sh q2   # 128GB RAM向け（約81GB）

コンパイルは10秒未満で完了します。GGUFのダウンロードはHugging Face（antirezのリポジトリ）経由で、60〜70 MB/sの環境で約20分かかります。

サーバー起動は次のコマンドです。

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

256GB以上のマシンであれば ./download_model.sh q4 で4-bit量子化版（高精度）を使えます。

実測値（M4 Max 128GB）

TechnoEdgeの検証環境（MacBook Pro M4 Max 128GB）での生成速度です。

条件	生成速度
短いプロンプト	23.42 t/s
コード生成	31.14 t/s
thinkingモード	31.80 t/s

READMEに記載のM3 Max 128GB公称値（26.68 t/s）より約17%速い結果です。Metal residencyの初回起動に30秒ほどかかりますが、2回目以降はmmapキャッシュが効いて0.5秒以内で立ち上がります。

制約と注意点

対応モデルが現時点でDeepSeek V4 Flashの1種類のみという点は、最大の制約です。将来的に同モデルの改訂版対応は予定されていますが、他のモデルへの拡張は計画されていません。

Metal専用のためApple Siliconのみで動作します。CUDA対応は「将来的に実装するかもしれない」という段階です。CPUバックエンドはmacOSのカーネルクラッシュを引き起こすバグがあるため、使用禁止とREADMEに明記されています。

コードはアルファ品質と明記されており、公開から日が浅いです。本番環境での利用は慎重に判断してください。GPT-5.5の支援を受けて開発されていることもREADMEで公言されています。

llama.cppとの関係

llama.cppが「あらゆるモデル・あらゆる環境」を目指す汎用エンジンであるのに対し、ds4は「1モデル × Apple Silicon × エージェント連携」に絞って完成度を追求します。

antirez自身、llama.cppとGGMLへの深い感謝をREADMEで表明しています。競合ではなく、特定の用途に特化した補完的な存在として位置付けているのが正確です。汎用性を放棄することで、ディスクKVキャッシュやエンドポイントの完全動作確認まで含めた完成度に集中できています。

128GB以上のApple Silicon Macを持ちながらローカルLLMのAPI遅延に悩んでいるなら、ds4は試す価値のある選択肢です。