DGX Spark 2台でV4 Flashを回すローカルコーディング実測

クラウドAPIに頼らず、自宅デスクでコーディングエージェントを回せるか。N8 Programsが2026年6月14日に公開した検証結果は、その答えをかなり具体的な数字で示しています。

この記事では、2台のNVIDIA DGX Spark上でDeepSeek V4 Flashを動かしたローカルコーディングエージェントの性能報告を整理します。ハード構成の前提、測定されたスループット、実例として使われたSpace Invadersベンチマークまで、再現の観点から読み解きます。

この記事でわかること

N8 Programsが報告したプリフィル・デコード速度の目安
2台クラスタが必要になる理由と公式スペック上の位置づけ
Space Invadersプロンプトがコーディング能力の試金石になる背景
他ユーザーのデュアルSpark構成との数値比較

2台のDGX Sparkで動かしたDeepSeek V4 Flashの実測値

https://x.com/N8Programs/status/2066109397621703166

N8 ProgramsはX（旧Twitter）で、DeepSeek V4 Flashを2台のDGX Sparkで動かした結果を公開しました。投稿では「fairly competent and fast local coding agent（かなり実用的で高速なローカルコーディングエージェント）」と評価しています。

報告された速度指標は次のとおりです。

プリフィル（pp）: おおよそ1150 tok/秒
デコード: おおよそ48 tok/秒

プリフィルはプロンプトをモデルに読み込む処理、デコードは回答を1トークンずつ生成する処理です。コーディングエージェントはツール呼び出しを繰り返すため、デコード速度が体感的な応答の速さに直結します。48 tok/秒は日本語で言えば1秒あたり数十語規模の出力ペースで、ローカル推論としては実用ラインに乗っている水準です。

なぜ1台では足りず2台が必要か

https://www.nvidia.com/en-us/products/workstations/dgx-spark/

DGX SparkはNVIDIA GB10 Grace Blackwell Superchipを搭載した卓上型AIスーパーコンピュータです。1台あたり128GBの統合メモリを持ち、単体では最大2000億パラメータ規模のモデル推論を想定した設計になっています。

一方、DeepSeek V4 Flashは総パラメータ2840億・活性化パラメータ130億のMoE（Mixture of Experts）モデルです。公式のDeepSeek V4プレビュー発表では、エージェント向けの高速・低コスト版として位置づけられ、100万トークンのコンテキストを標準サポートします。

NVIDIAの仕様によれば、ConnectX-7の200Gbpsリンクで2台をクラスタリングすると、最大4050億パラメータ規模のモデルに対応できます。コミュニティのデュアルSpark向けレシピでは、公式のdeepseek-ai/DeepSeek-V4-Flashをテンソル並列（TP=2）で約149GBに分割して載せる構成が確認されています。V4 Flashをフル精度で動かすには、メモリと帯域の両面で2台構成が現実的な選択肢になります。

Space Invadersプロンプトが示す実用性

https://gist.github.com/ivanfioravanti/48e0fa5ce618b332db8cd72b8d4b7183

N8 Programsのデモでは、開発者Ivan Fioravanti氏が公開したSpace Invadersプロンプトを使っています。このプロンプトは「単一HTMLファイルで1978年のタイトー版スペースインベーダーをピクセル単位で再現せよ」という、かなり厳しい要件です。

具体的には、55体のインベーダー配置、Web Audio APIによる効果音生成、GameやInvaderGridなどのクラス分割、localStorageでのハイスコア保存まで求められます。Simon Willison氏らがローカルLLMのコーディング性能を測る際にも使われてきたベンチマークで、単なるコード補完ではなく、長い仕様を理解して動く成果物を出せるかを見る試金石です。

N8 Programsは動画付きでこのプロンプトによるゲーム生成を示しており、エージェントがファイル作成・修正を繰り返しながら完成に至った様子が確認できます。速度指標だけでなく、実タスクでの挙動が示された点が、この報告の価値です。

他のデュアルSpark検証との比較

https://github.com/tonyd2wild/deepseek-v4-flash-dual-spark-recipe

N8 Programsの報告以前から、2台のDGX SparkでV4 Flashを動かす試みはコミュニティで進んでいました。GitHubのdeepseek-v4-flash-dual-spark-recipeでは、vLLMのフォークとMTP（投機的デコード）を使い、シングルストリームでデコード約41 tok/秒、200Kコンテキスト、fp8 KVキャッシュという数値が報告されています。

NVIDIA Developer Forumsのスレッドでも、同様の構成でデコード約44 tok/秒、同時実行2本で合計約45 tok/秒といった測定が共有されています。N8 Programsの約48 tok/秒は、この帯域の上限付近に位置し、構成やチューニングの差で多少のブレはあるものの、再現性のあるレンジと言えます。

プリフィルの1150 tok/秒は、フォーラムで報告される長文コンテキスト時のプリフィル（例: 32Kで約53秒、128Kで約250秒）と比べると、短いプロンプトや最適化された計測条件での値と考えられます。エージェント運用では、巨大なリポジトリ丸ごと読み込む場面と、短いツール結果を返す場面が混在するため、両方の指標を分けて見る必要があります。

ローカルコーディングエージェントを組むときの要点

デュアルSpark構成でV4 Flashを載せる場合、コミュニティの知見では次の点が繰り返し言及されています。

QSFP56の200GケーブルでConnectX-7を直結し、ノード間通信を確保する
vLLMをRayなしのマルチノードモード（--distributed-executor-backend mp）で起動する。Ray経由だと1ノード1GPUのトポロジを誤検出して失敗する
MTP投機的デコード（num_speculative_tokens=2）とfp8 KVキャッシュでデコードを底上げする
初回のモデルロードは約6分かかることがある。149GB規模の重みを2ノードに分散するためです

N8 Programsの投稿は、これらの構成が「動く」ことの先にある、エージェントとしての実用感を示した事例です。DeepSeek公式もV4をClaude CodeやOpenCodeなどのエージェントと統合済みと述べており、クラウドAPIと同じモデル名をローカルで回せる環境が、2026年時点で現実的になっています。

ローカル推論の次の一手

2台のDGX SparkとDeepSeek V4 Flashの組み合わせは、高価な投資です。それでも、コードや会話データを外部に送らず、100万トークン級のコンテキストを前提にエージェントを回したい開発者にとって、再現可能な選択肢として存在感を増しています。

N8 Programsの約48 tok/秒デコードとSpace Invaders生成の実例は、ベンチマーク数値を「実際にコーディングエージェントとして使えるか」という問いに結びつけた報告です。同様の構成を試すなら、まずコミュニティのデュアルSparkレシピで推論サーバを立ち上げ、慣れ親しんだCLIエージェントから接続する流れが現実的です。速度は構成次第で上下しますが、帯域の目安はすでに複数の検証で揃い始めています。