クラウドAPIへの毎月のトークンコストを、デスクに置けるAIスパコン1台で置き換えられる時代になりました。
この記事でわかること:
- NVIDIA DGX SparkとNemoClawの概要と役割の違い
- 実際に動かせるモデルと並列エージェントの性能数値
- 購入価格とクラウドAPIとのコスト比較の考え方
- NemoClawのセキュリティ機能とインストール方法
NVIDIA DGX Sparkとは
https://www.nvidia.com/en-us/products/workstations/dgx-spark/
NVIDIA DGX Sparkは、NVIDIA GB10 Grace Blackwell Superchipを搭載したデスクトップ向けAIスーパーコンピューターです。旧称「Project DIGITS」として発表され、2025年に正式リリースされました。
本体サイズは150mm × 150mm × 50.5mm、重量は1.2kgです。A4用紙より小さいフォームファクターながら、FP4精度で最大1ペタFLOPのAI演算性能を持ちます。128GBの統合メモリにより200億パラメータまでのモデルを1台で推論でき、ファインチューニングは70億パラメータまで対応します。
なぜローカル実行が注目されるのか
AIエージェントはLLMを繰り返し呼び出す構造のため、クラウドAPIのトークンコストが積み上がりやすいです。1つのタスクで数十回のLLM呼び出しが発生するケースも珍しくなく、月単位では数万円から数十万円の費用になることがあります。
加えて、個人の作業ファイルや社内ドキュメントをクラウドに送ることへのプライバシー懸念も根強くあります。DGX Sparkはこの2つの課題を同時に解決します。初期費用は発生しますが、以後のトークンコストはゼロです。モデル推論がすべてローカルで完結するため、データが外部に出ません。
NemoClawとは
NemoClawは、NVIDIAが開発したオープンソースのAIエージェント向けセキュリティスタックです。急速に普及したオープンソースAIエージェントフレームワーク「OpenClaw」(GitHubスター30万以上)のセキュリティとプライバシーの課題に対応するために開発されました。GTC 2026で正式発表され、OpenClaw向けのNVIDIA公式セキュリティ基盤として位置付けられています。
4つのコアコンポーネントで構成されています。
OpenShell Secure Sandbox はエージェントの実行をカーネルレベルで分離します。ファイルシステム・ネットワーク・プロセスへのアクセスをポリシーで細かく制御できます。
Privacy Router はローカルモデルとクラウドAPIへのルーティングをインテリジェントに切り替えます。機密性の高いデータはデバイス内で処理し、安全なクエリのみをクラウドに送ります。
Nemotron Local Inference はDGX Spark上でNemotron 3 Super 120Bをトークンコストゼロ・完全オフラインで動かすための推論エンジンです。
Network Policy Engine はアウトバウンド通信をデフォルト拒否とし、外部接続にはオペレーターの明示的な承認を求めます。すべての通信の監査証跡も自動で記録されます。
インストールは以下の1コマンドで完了します。
curl -fsSL https://www.nvidia.com/nemoclaw.sh | bash
Linux・Windows(WSL2)・macOSに対応しています。
動かせるモデルと並列エージェントの性能
DGX Sparkで実際に動作する主なモデルは以下のとおりです。
| モデル | パラメータ数 | 特徴 |
|---|---|---|
| Nemotron 3 Super | 120B(12Bアクティブ) | エージェント向けベンチマークPinchBenchで85.6%、同クラス首位 |
| Qwen3.5 35B A3B | 35B(3Bアクティブ) | 高速推論・コーディング特化 |
| Qwen3.5 27B | 27B | RTX 5090との組み合わせで高性能 |
| Mistral Small 4 | 119B(8Bアクティブ) | 汎用チャット・コーディング対応 |
| Nemotron 3 Nano | 4B | GeForce RTX向け、省メモリ動作 |
NVIDIAの公式計測によると、128Kトークンの入力に対してQwen3.5 35B A3Bは73秒で応答し、トークン生成速度は35.75 tok/sです(参考)。
並列実行の特性も優れています。4つのサブエージェントを同時に動かした場合、処理時間は単体比2.6倍に抑えられます。4件のタスクをほぼ並行して処理できる計算です。DGX SparkはTensorRT LLM・vLLM・SGLangを通じて2・4・8以上の同時エージェント実行を明示的にサポートしており、コンテキストウィンドウも最大250Kトークンまで扱えます。
価格と拡張性
https://marketplace.nvidia.com/en-us/enterprise/personal-ai-supercomputers/dgx-spark/
DGX SparkのFounders Editionは、メモリ供給制約による価格改定後の米国定価が4,699ドルです(改定前は3,999ドル)。日本国内ではMSI EdgeXpertモデルが658,000円から663,500円(税込)で販売されています。
2台を接続すると利用可能メモリが256GBに増え、4,050億パラメータまでのモデルを扱えます。4台接続では700億パラメータまで対応し、ローカルのAI推論サーバーとして稼働させることも可能です。複数ノード間の通信にはConnectX-7 NICによる低遅延RoCEを使い、近線形スケーリングを実現しています。
クラウドAPIとのコスト比較
月次のトークンコストが5万円を超えるような用途であれば、DGX Spark 1台(約65〜70万円)は1年あ内での回収が現実的な水準です。プライバシー要件が厳しい業務では、クラウドAPI利用自体が選択肢から外れるケースもあるため、コストだけでなくコンプライアンス面での評価も必要です。
一方、AIエージェントを使い始めたばかりで月次コストが数千円程度の段階では、クラウドAPIの方が初期コストを抑えられます。DGX Sparkは「性能・プライバシー・コスト」の3点がそろったときに真価を発揮します。
まとめ
DGX Sparkの登場以前、ローカルモデルは「性能と引き換えにコストを下げる妥協策」という位置付けでした。Nemotron 3 Super 120BがPinchBenchで同クラス首位を獲得したことは、その前提が変わったことを示しています。
NemoClawによるセキュリティ基盤の整備が加わり、機密データを扱うビジネス用途や常時稼働のエージェント環境でも、ローカル推論が現実的な選択肢として浮上しています。