AIエージェントはテキスト生成やコード補完が得意でも、GUIアプリを実際に操作する能力はありませんでした。

この記事では、AIエージェントにマウス操作・キーボード入力・画面読み取りを提供するオープンソースツール「Clawd Cursor」を紹介します。

この記事でわかること

  • Clawd Cursorが解決する課題と仕組み
  • 74個のツールとコンパクトモード(6ツール)の使い分け
  • Claude Code・Cursor・Windsurfへの接続手順
  • blind-firstパイプラインによるコスト削減の仕組み

https://github.com/AmrDab/clawdcursor

Clawd Cursorとは

Clawd Cursorは、ツール呼び出しに対応したAIエージェントにデスクトップ操作能力を与えるMCPサーバー(スキル)です。2026年2月にGitHubで公開され、現在はv0.8.7。MITライセンスのオープンソースで、289スターを集めています(2026年5月時点)。

「スキル」という名称が示すとおり、Clawd Cursor自体はスタンドアロンのアプリケーションではありません。Claude Code、Cursor、Windsurfなど、ツール呼び出し対応のエージェントホストに追加することで、そのエージェントがデスクトップ操作をできるようになります。

解決する課題

AIエージェントはAPIやテキスト処理には強い一方、GUIアプリの操作は苦手でした。従来の自動化ツールはアプリごとにAPIキーや設定が必要で、デスクトップアプリ専用の連携実装も求められます。

Clawd Cursorは「画面に表示されていれば操作できる」というアプローチでこの課題を解決します。アプリ固有の統合は不要で、ローカルの127.0.0.1上で完結するためクラウド経由の通信も発生しません。

主な機能

74個のグラニュラーツールと6個のコンパクトツール

Clawd Cursorが提供するツールは2種類の粒度で利用できます。

グラニュラーモード(74ツール)はmouse_clicktype_textread_screenなど操作を細かく分割したフルカタログです。コンパクトモード(6ツール)はcomputeraccessibilitywindowsystembrowsertaskの6つに集約したAnthropicのComputer-Use形式です。コンパクトモードはトークン消費がグラニュラーの約12分の1に抑えられるため、LLMエージェントへの接続には推奨されています。

blind-firstパイプライン

Clawd Cursorの特徴的な設計が、blind-first(アクセシビリティツリー優先)のパイプラインです。

Router(ゼロLLMコスト)
 → Blindエージェント(アクセシビリティツリーのみ)
 → Hybridエージェント(ツリー+オンデマンドスクリーンショット)
 → Visionフォールバック(スクリーンショット毎ターン)

多くのタスクはスクリーンショットなしで完了するため、ビジョンオンリーのエージェントと比べて1ターンあたりのコストを大幅に抑えられます。

OS対応

Windows、macOS、Linuxの3つのOSに対応しています。内部ではOS差分をPlatformAdapterという単一インターフェースで抽象化しており、ビジネスロジック内でのOS分岐がありません。LinuxはX11とWayland両方をカバーし、Wayland入力にはydotoolまたはwtypeを使います。

セーフティゲート

すべてのツール呼び出しはsafety.evaluate()という単一のチョークポイントを通ります。削除・送信などの破壊的操作はユーザーへの確認を求める設計で、v0.8.7ではREST APIやMCP経由の直接呼び出しがこのゲートを迂回できていた問題が修正されました。

対応AIプロバイダー

Anthropic(Claude)、OpenAI、Google Gemini、xAI(Grok)、Ollama(ローカルモデル)など13以上のプロバイダーに対応しています。

インストールと接続方法

macOS・Linuxなら1コマンドでインストールできます。

curl -fsSL https://clawdcursor.com/install.sh | bash
clawdcursor grant   # macOSのみ: アクセシビリティとスクリーン録画の許可
clawdcursor doctor  # インストール確認

WindowsはPowerShellを使います。

powershell -c "irm https://clawdcursor.com/install.ps1 | iex"

Claude Codeへの接続は~/.claude/settings.jsonにMCPエントリを追加します。

{
  "mcpServers": {
    "clawdcursor": {
      "command": "clawdcursor",
      "args": ["mcp", "--compact"]
    }
  }
}

CursorやWindsurfなど他のMCP対応エディタも、同様にstdio MCPエントリを追加するだけで連携できます。

料金

Clawd Cursor自体はMITライセンスの無料ソフトウェアです。デスクトップを操作するAIの呼び出しには、接続するプロバイダー(Anthropic APIなど)の利用料金がかかります。

まとめ

Clawd Cursorは、ツール呼び出し対応のAIエージェントにデスクトップ操作能力を追加するオープンソースのスキルです。アプリ固有の統合なしに「画面に表示されているものをすべて操作できる」というアプローチ、アクセシビリティツリー優先のコスト効率の高いパイプライン、13以上のAIプロバイダーへの対応が特徴です。Claude Code、Cursor、Windsurfをすでに使っているなら、MCP設定を追加するだけで使い始められます。