Mac MiniからNVIDIA DGX Sparkへ乗り換え、Hermes Agentsでローカルコーダーモデルを回した結果、月収が3,500ドルから7,000ドルに倍増した——そんな事例がXで報告されています。B2Bクライアント向けのAIエージェント運用では、ハードウェアとフレームワークの組み合わせが収益に直結する時代が来ています。

この記事では、事例の背景と技術的な理由、OpenClawのメモリ問題、DGX SparkとHermesの強みを整理します。

この記事でわかること

  • Mac MiniからDGX Sparkへ移行した理由
  • OpenClawのメモリ設計が抱えるコンテキスト肥大化の問題
  • Hermes AgentsとDGX SparkがB2B運用に向く理由
  • ローカルエージェント運用でメモリを読む際の注意点

B2B向けローカルコーダー運用がハードウェアを要求する理由

B2Bクライアント向けにAIエージェントを構築・運用する場合、ソースコードや業務データをクラウドAPIに送らずローカルで処理したいニーズが強くなります。コーディング特化のローカルモデル(Qwen 3.6 35Bなど)を常時稼働させ、複数クライアントの環境を並行して扱うには、モデル本体に加えてエージェントランタイム、MCPサーバー、サブエージェント用のメモリが必要です。

Mac Mini M4(24GB)ではエージェント本体と13Bクラスのモデルが限界です。M4 Pro(48GB)でも30B超のモデルを複数エージェントで同時運用するのは厳しく、B2B案件を増やすほどボトルネックになります。事例報告では、こうした制約を理由にDGX Sparkへ移行したとされています。

OpenClawのメモリ問題——コンテキスト肥大化と孤児プロセス

事例報告では、従来使っていたOpenClawのメモリ設計が「深刻なコンテキスト肥大化」を招いたと指摘されています。OpenClawはGitHubスター数34万超の個人AIエージェント基盤で、TelegramやDiscordなど50以上のメッセージング連携に対応します。常時稼働のゲートウェイがセッション横断でメモリを保持する設計のため、長時間運用ではメモリ圧迫が起きやすい構造です。

GitHubのIssue報告でも、24〜48時間稼働後に45個の孤児openclaw-completionプロセスが蓄積し、ゲートウェイのメモリ使用量が24.8GBに達した事例があります。Discordのメッセージ処理が300秒超に遅延したとの報告もあります(参考)。

OpenClawのメモリはファイルベースの永続化(MEMORY.md、日次ログ)と検索インデックスで構成されます。コンテキストが圧縮(compaction)される前にメモリフラッシュが走る仕組みがありますが、デフォルトの閾値がタイトだとフラッシュが発火せず、会話履歴が肥大化します。reserveTokensFloorを40,000トークン程度に設定する運用が推奨されています(参考)。

Hermes AgentsとOpenClawを相互連携させた環境では、MCP子プロセスがセッション終了後も残存し、約1GBの無駄なメモリ消費が報告されています。Hermes側はv2026.6.5でプロセスグループ単位の回収処理を追加し、この問題に対応しました(参考)。

DGX Spark——128GB統合メモリのデスクトップAIスーパーコンピュータ

https://www.nvidia.com/en-us/products/workstations/dgx-spark/

NVIDIA DGX Sparkは、GB10 Grace Blackwellスーパーチップを搭載した卓上型AIスーパーコンピュータです。128GBの統合メモリ(CPUとGPUが同一プールを共有)、FP4で最大1ペタフロップのAI性能、本体サイズ150mm四方・重量1.2kgと、デスクに置けるフォームファクタが特徴です。2025年10月の出荷開始時の希望小売価格は4,699ドルです。

2000億パラメータクラスのモデル推論、700億パラメータクラスのファインチューニングがローカルで可能とされています。Qwen 3.6 35Bは約20GBのメモリで動作し、1200億パラメータクラスのモデルと同等の知能を持つとNVIDIAは説明しています(参考)。

DGX Sparkの統合メモリでは、従来のGPU専用VRAMという概念がありません。nvidia-smiのメモリゲージは参考にならず、Linuxのfree -hコマンドでavailable列を見る必要があります。Nemotron 3 Super(120B)を読み込むと94GBを消費しますが、availableが27GiB残っていれば単一エージェントの運用は可能です。一方Nemotron 3 Nano(30B)は27GBで済み、約89GiBのヘッドルームが残るため、複数エージェントの並行運用に向きます(参考)。

Hermes Agents——メモリ効率を意識したエージェント設計

https://hermes-agent.nousresearch.com/docs/

Hermes AgentsはNous Researchが2026年2月に公開したオープンソースの自律型AIエージェントです。MITライセンスで、Telegram・Discord・Slackなど複数プラットフォームに対応し、24時間稼働を前提に設計されています。

OpenClawとの大きな違いは、サブエージェントの扱いです。Hermesはサブエージェントを短命の隔離ワーカーとして起動し、タスクごとにコンテキストとツールセットを絞り込みます。これによりメインエージェントのコンテキストウィンドウを小さく保て、ローカルモデルとの相性が良くなります。NVIDIAの公式ブログでも「Contained Sub-Agents(隔離サブエージェント)」をHermesの差別化機能として紹介しています。

加えて、複雑なタスクを解決した際にスキルドキュメントを自動生成し、次回以降に再利用する自己進化ループを持ちます。同一モデルでもフレームワーク次第で結果が変わるとされ、Hermesはアクティブなオーケストレーション層として動作します。

DGX Spark上では、OllamaやLM Studio経由でQwen 3.6などのローカルモデルと組み合わせて動かせます。NVIDIAはHermes DGX Spark向けのプレイブックも公開しており、セットアップ手順が整備されています。

月収倍増の背景——何が変わったのか

事例報告の核心は、ハードウェアとソフトウェアを同時に刷新した点にあります。

ハードウェア面では、Mac Miniのメモリ上限から128GB統合メモリのDGX Sparkへ移行し、35Bクラスのコーダーモデルを安定稼働させられるようになったと考えられます。B2B案件を並行処理する際、モデル推論とエージェントランタイムの両方に十分なヘッドルームが確保されます。

ソフトウェア面では、OpenClawからHermes Agentsへ切り替え、コンテキスト肥大化と孤児プロセスによるメモリ圧迫を回避したとされています。Hermesの隔離サブエージェント設計は、長時間稼働するB2B環境でメモリ消費の予測可能性を高めます。

コスト面では、クラウドAPIの従量課金からローカル推論の固定費(電気代)へシフトした効果も無視できません。DGX Sparkの初期投資4,699ドルに対し、月額3,500ドル増の収益改善は、数ヶ月でハードウェアコストを回収する計算になります。

ただし、この収益数字はX上の事例報告に基づくものであり、再現性を保証するものではありません。クライアント獲得力や案件内容が収益に与える影響は、技術スタック以上に大きい点は留意が必要です。

ローカルエージェント運用の実践ポイント

DGX SparkでHermesを運用する際、メモリ管理が安定稼働の鍵になります。

まずfree -havailable列を監視し、スワップ使用が増えたらモデルサイズの縮小やエージェント数の削減を検討します。次に、MCPサーバーの子プロセスが残存していないか定期的に確認します。Hermes v2026.6.5以降では孤児プロセスの回収が改善されていますが、長期稼働環境ではpsコマンドでの点検が有効です。

モデル選定では、単一の大型モデルより、Nanoクラス(30B)でヘッドルームを確保し複数エージェントを並行させる方が、B2B運用では実用的な場合があります。NVIDIAのNemoClawインストーラーがデフォルトでNemotron 3 Nanoを推奨するのも、同じ理由からです。

エージェント基盤選びの判断軸

OpenClawとHermesは競合というより設計思想が異なります。OpenClawは50以上のメッセージング連携と数千のコミュニティスキル(ClawHub)を持ち、すぐに本番投入したい場合に向きます。Hermesは自己進化ループとメモリ効率を重視し、長期運用でエージェントを育てたい場合に向きます。

B2B向けローカルコーダー運用では、メモリ効率とモデルサイズのバランスが収益に直結します。128GBの統合メモリを持つDGX Sparkと、隔離サブエージェント設計のHermes Agentsは、その要件に応える組み合わせとして注目に値きます。