AIエージェントを長時間稼働させると、知らない間にトークンを大量消費していた、意図しないコマンドが実行されていた——そんな問題が起きやすいです。

この記事では、OpenClawとHermesの課題を補う設計で作られたOSSエージェント「Mercury Agent」の機能と使い方を紹介します。

この記事でわかること:

  • Mercuryが「許可なしでは動かない」設計を採用した背景
  • 予算管理・デーモン常駐・Telegram連携の具体的な使い方
  • OpenClaw・Hermesとの違いと選び方

OpenClawとHermesが持っていた課題

OpenClawは2026年時点でGitHub上で最も多くスターを集めたAIエージェントで、HermesはNous Researchが開発した自己改善型のターミナルエージェントです。どちらも実用性は高いですが、設計上の共通した弱点があります。

コマンドを無断で実行する、トークン消費に上限がない、ファイルの読み書きスコープが曖昧——「エージェントが動く」は実現できていますが、「エージェントが予測通りに動く」保証が薄いです。

Mercury Agentは「Not just agents that run. Agents that behave predictably.」というコンセプトを掲げ、この問題に正面から答えるツールとして設計されました。

Mercury Agentとは

https://github.com/cosmicstack-labs/mercury-agent

Mercury Agentはcosmicstack-labsが開発したオープンソースのAIエージェントです。CLIとTelegramから操作でき、バックグラウンドプロセスとして24時間常駐させられます。31種類の組み込みツールを持ち、コミュニティスキルで機能を拡張できます。

インストールは以下のコマンドだけで完結します。

npx @cosmicstack/mercury-agent

初回起動時にセットアップウィザードが起動し、名前・APIキー・Telegramトークンを入力します。30秒ほどで使い始められます。

パーミッション制御

Mercuryの設計の核心は許可制です。sudorm -rf / などの危険コマンドはビルトインのブロックリストで実行を遮断します。ファイルの読み書きはフォルダ単位でスコープを設定でき、スコープ外への操作は確認フローを経てから実行されます。

スキルごとに allowed-tools を明示的に指定できるため、スキルが使えるツールの範囲を意図的に絞れます。承認が必要なアクションはペンディング状態で止まり、明示的に許可するまで実行されません。

予算・トークン管理

毎日のトークン予算を数値で設定できます。使用量が70%を超えると自動的に応答を短縮するモードに切り替わり、予期しない高額請求を防ぎます。チャット内コマンドで随時確認・変更も可能です。

/budget              # 現在の使用量と残量を確認
/budget set 50000    # 1日の予算を50,000トークンに設定
/budget override     # 1回だけ予算上限を超えて実行
/budget reset        # 使用量をゼロにリセット

OllamaをローカルLLMとして使えばAPIキーが不要になるため、コストをゼロにできます。

Soul(ソウル)設定

エージェントのパーソナリティを ~/.mercury/soul/ フォルダのMarkdownファイルで管理できます。soul.mdpersona.mdtaste.mdheartbeat.md を編集するだけで、応答スタイルや価値観を自分で定義できます。

LLMプロバイダーのデフォルトシステムプロンプトに依存せず、エージェントの動作方針を手元で管理できる点が特徴です。

デーモン常駐(常時稼働)

mercury up 一コマンドでバックグラウンド常駐を設定できます。macOSはLaunchAgent、Linuxはsystemdユーザーユニット、WindowsはタスクスケジューラーとOS標準の仕組みを使うため、管理者権限は不要です。

クラッシュ時は指数バックオフで自動再起動し、1分間に最大10回まで再試行します。

mercury up       # サービスインストール+バックグラウンド起動
mercury logs     # デーモンログを確認
mercury status   # 稼働状況を確認
mercury restart  # デーモンを再起動

デーモンモードではTelegramが主チャンネルになり、CLIはログ表示のみになります。

Telegramチャンネル

CLIとTelegramの両方からエージェントに話しかけられます。Telegramはadmin/memberのロール管理があり、新規ユーザーのアクセス申請にはadminの承認が必要です。グループメッセージは常に無視される設計になっており、意図しないアクセスを防ぎます。

ユーザー管理のコマンド例は以下のとおりです。

mercury telegram list            # 承認済み・申請中のユーザー一覧
mercury telegram approve <code>  # ペアリングコードで承認
mercury telegram reject <id>     # 申請を却下
mercury telegram promote <id>    # メンバーをadminに昇格

31種類の組み込みツール

ファイル操作(読み書き・作成・編集・削除・一覧・送信)、シェル実行、Git操作(status・diff・log・add・commit・push)、Webフェッチ、スキル管理、スケジュール管理など31種類のツールが標準で使えます。

コミュニティ製スキルは install_skill コマンドで追加でき、cronスケジュールとして定期実行することも可能です。

料金

Mercury Agent自体は無料のオープンソースです。LLMの利用料はLLMプロバイダーに直接支払う形になります。

プロバイダー デフォルトモデル 特徴
DeepSeek deepseek-chat デフォルト・コスト効率重視
OpenAI gpt-4o-mini GPT-4o、o3も対応
Anthropic claude-sonnet-4 Claude全シリーズ対応
Grok(xAI) grok-4 OpenAI互換エンドポイント
Ollama gpt-oss:20b APIキーなしでローカル実行

複数プロバイダーを設定するとフォールバック順に自動切り替えを行います。

OpenClaw・Hermesとの違い

OpenClawは最大のスター数(345,000以上)とエコシステムを持ちますが、権限管理は薄いです。HermesはNous Researchが開発した自己改善型エージェントで外部チャンネル連携に強みを持ちますが、トークン予算の仕組みがありません。

Mercuryの差別化は「予算制限」「許可制のコマンド実行」「スコープ付きファイル操作」の3点に集約されます。GitHubスターはまだ545と小規模ですが、設計思想は明確です。

業務で長時間稼働させるエージェントが必要な場合や、権限管理とコスト管理を重視するなら、OpenClawやHermesより先にMercuryを試す価値があります。

まとめ

「エージェントが動く」より「エージェントが想定通りに動く」を優先したい場合、Mercuryは現時点で最も設計が明確なOSSエージェントの一つです。npx @cosmicstack/mercury-agent で30秒から試せます。許可制・予算制限・常駐機能を1つのツールで揃えたいなら、選択肢に加えてみてください。