クラウドAPIに頼らず、自宅デスクでコーディングエージェントを回せるか。N8 Programsが2026年6月14日に公開した検証結果は、その答えをかなり具体的な数字で示しています。
この記事では、2台のNVIDIA DGX Spark上でDeepSeek V4 Flashを動かしたローカルコーディングエージェントの性能報告を整理します。ハード構成の前提、測定されたスループット、実例として使われたSpace Invadersベンチマークまで、再現の観点から読み解きます。
この記事でわかること
- N8 Programsが報告したプリフィル・デコード速度の目安
- 2台クラスタが必要になる理由と公式スペック上の位置づけ
- Space Invadersプロンプトがコーディング能力の試金石になる背景
- 他ユーザーのデュアルSpark構成との数値比較
2台のDGX Sparkで動かしたDeepSeek V4 Flashの実測値
https://x.com/N8Programs/status/2066109397621703166
N8 ProgramsはX(旧Twitter)で、DeepSeek V4 Flashを2台のDGX Sparkで動かした結果を公開しました。投稿では「fairly competent and fast local coding agent(かなり実用的で高速なローカルコーディングエージェント)」と評価しています。
報告された速度指標は次のとおりです。
- プリフィル(pp): おおよそ1150 tok/秒
- デコード: おおよそ48 tok/秒
プリフィルはプロンプトをモデルに読み込む処理、デコードは回答を1トークンずつ生成する処理です。コーディングエージェントはツール呼び出しを繰り返すため、デコード速度が体感的な応答の速さに直結します。48 tok/秒は日本語で言えば1秒あたり数十語規模の出力ペースで、ローカル推論としては実用ラインに乗っている水準です。
なぜ1台では足りず2台が必要か
https://www.nvidia.com/en-us/products/workstations/dgx-spark/
DGX SparkはNVIDIA GB10 Grace Blackwell Superchipを搭載した卓上型AIスーパーコンピュータです。1台あたり128GBの統合メモリを持ち、単体では最大2000億パラメータ規模のモデル推論を想定した設計になっています。
一方、DeepSeek V4 Flashは総パラメータ2840億・活性化パラメータ130億のMoE(Mixture of Experts)モデルです。公式のDeepSeek V4プレビュー発表では、エージェント向けの高速・低コスト版として位置づけられ、100万トークンのコンテキストを標準サポートします。
NVIDIAの仕様によれば、ConnectX-7の200Gbpsリンクで2台をクラスタリングすると、最大4050億パラメータ規模のモデルに対応できます。コミュニティのデュアルSpark向けレシピでは、公式のdeepseek-ai/DeepSeek-V4-Flashをテンソル並列(TP=2)で約149GBに分割して載せる構成が確認されています。V4 Flashをフル精度で動かすには、メモリと帯域の両面で2台構成が現実的な選択肢になります。
Space Invadersプロンプトが示す実用性
https://gist.github.com/ivanfioravanti/48e0fa5ce618b332db8cd72b8d4b7183
N8 Programsのデモでは、開発者Ivan Fioravanti氏が公開したSpace Invadersプロンプトを使っています。このプロンプトは「単一HTMLファイルで1978年のタイトー版スペースインベーダーをピクセル単位で再現せよ」という、かなり厳しい要件です。
具体的には、55体のインベーダー配置、Web Audio APIによる効果音生成、GameやInvaderGridなどのクラス分割、localStorageでのハイスコア保存まで求められます。Simon Willison氏らがローカルLLMのコーディング性能を測る際にも使われてきたベンチマークで、単なるコード補完ではなく、長い仕様を理解して動く成果物を出せるかを見る試金石です。
N8 Programsは動画付きでこのプロンプトによるゲーム生成を示しており、エージェントがファイル作成・修正を繰り返しながら完成に至った様子が確認できます。速度指標だけでなく、実タスクでの挙動が示された点が、この報告の価値です。
他のデュアルSpark検証との比較
https://github.com/tonyd2wild/deepseek-v4-flash-dual-spark-recipe
N8 Programsの報告以前から、2台のDGX SparkでV4 Flashを動かす試みはコミュニティで進んでいました。GitHubのdeepseek-v4-flash-dual-spark-recipeでは、vLLMのフォークとMTP(投機的デコード)を使い、シングルストリームでデコード約41 tok/秒、200Kコンテキスト、fp8 KVキャッシュという数値が報告されています。
NVIDIA Developer Forumsのスレッドでも、同様の構成でデコード約44 tok/秒、同時実行2本で合計約45 tok/秒といった測定が共有されています。N8 Programsの約48 tok/秒は、この帯域の上限付近に位置し、構成やチューニングの差で多少のブレはあるものの、再現性のあるレンジと言えます。
プリフィルの1150 tok/秒は、フォーラムで報告される長文コンテキスト時のプリフィル(例: 32Kで約53秒、128Kで約250秒)と比べると、短いプロンプトや最適化された計測条件での値と考えられます。エージェント運用では、巨大なリポジトリ丸ごと読み込む場面と、短いツール結果を返す場面が混在するため、両方の指標を分けて見る必要があります。
ローカルコーディングエージェントを組むときの要点
デュアルSpark構成でV4 Flashを載せる場合、コミュニティの知見では次の点が繰り返し言及されています。
- QSFP56の200GケーブルでConnectX-7を直結し、ノード間通信を確保する
- vLLMをRayなしのマルチノードモード(
--distributed-executor-backend mp)で起動する。Ray経由だと1ノード1GPUのトポロジを誤検出して失敗する - MTP投機的デコード(
num_speculative_tokens=2)とfp8 KVキャッシュでデコードを底上げする - 初回のモデルロードは約6分かかることがある。149GB規模の重みを2ノードに分散するためです
N8 Programsの投稿は、これらの構成が「動く」ことの先にある、エージェントとしての実用感を示した事例です。DeepSeek公式もV4をClaude CodeやOpenCodeなどのエージェントと統合済みと述べており、クラウドAPIと同じモデル名をローカルで回せる環境が、2026年時点で現実的になっています。
ローカル推論の次の一手
2台のDGX SparkとDeepSeek V4 Flashの組み合わせは、高価な投資です。それでも、コードや会話データを外部に送らず、100万トークン級のコンテキストを前提にエージェントを回したい開発者にとって、再現可能な選択肢として存在感を増しています。
N8 Programsの約48 tok/秒デコードとSpace Invaders生成の実例は、ベンチマーク数値を「実際にコーディングエージェントとして使えるか」という問いに結びつけた報告です。同様の構成を試すなら、まずコミュニティのデュアルSparkレシピで推論サーバを立ち上げ、慣れ親しんだCLIエージェントから接続する流れが現実的です。速度は構成次第で上下しますが、帯域の目安はすでに複数の検証で揃い始めています。