AIエージェントに操作を委ねると、カーソルが突然動いて作業を中断させられる。Cua Driverはこの問題を解決するために設計されたmacOS向けのオープンソースドライバだ。2026年4月23日にv0.0.4がリリースされた。

この記事でわかること:

  • Cua Driverがどんな課題を解決するか
  • バックグラウンド操作の仕組みと対応アプリ
  • インストール手順とClaude Codeとの連携方法
  • 類似ツールとの比較

フォアグラウンドを奪うエージェントの問題

コンピューター操作型のAIエージェントは、マウスカーソルやキーボードフォーカスを直接制御する仕組みが多い。エージェントが作業している間、ユーザーは画面に触れられない。複数のタスクを並行させようとすると、エージェントの操作と自分の操作が衝突してしまう。

この「フォアグラウンドを占有する」という前提が、実務でのエージェント活用を難しくしている。UIテストや業務自動化でも同じ問題が繰り返し指摘されてきた課題だ。

Cua Driverとは

https://github.com/trycua/cua

Cua Driver(クア・ドライバー)は、macOS上でAIエージェントがアプリをバックグラウンドで操作できるオープンソースのドライバだ。Y Combinator出身のスタートアップ「Cua」が開発し、trycua/cuaリポジトリの一部としてMITライセンスで公開されている。

エージェントがクリック・入力・検証を行っても、カーソルもフォーカスも奪わない。ユーザーは自分の作業を続けながら、エージェントに別の作業を任せられる。

対応するアプリの広さが特徴

macOSのアクセシビリティAPI(AX)に対応していないアプリでも操作できる。ChromiumベースのブラウザのWebコンテンツ、Blender、Figma、DAW、ゲームエンジンなど、キャンバスベースのツールも含まれる。

通信にはMCP(Model Context Protocol)のstdioトランスポートを使用する。MCPはAnthropicが策定したオープンな規格で、AIエージェントとツールの間の共通インターフェースとして広まっている。

Claude CodeやCursorから直接呼び出せる

Cua DriverはMCPサーバーとして動作する。Claude CodeやCursorなど、MCPに対応したクライアントから直接呼び出せる。パッケージにはClaude Code向けのスキル設定も同梱されており、導入後すぐに連携を始められる。

各セッションの操作内容は「リプレイ可能なトラジェクトリ」として自動記録される。エージェントが何をどの順番で操作したかを後から確認でき、デバッグやトレーニングデータの収集にも活用できる。

インストールはスクリプト1行

対応環境はmacOS(Apple Silicon、darwin-arm64)だ。インストールはシェルスクリプト1行で完了する。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

ライセンスはMITで、商用利用も含めて自由に使える。追加料金は不要だ。

類似ツールとの違い

コンピューター操作型AIの手段として、AnthropicのComputer Use APIやOpenAIのOperatorがある。いずれもスクリーンショットを撮って視覚的に判断する方式で、クラウド経由の操作が前提だ。

Cua Driverはローカルで動くドライバという立ち位置が異なる。クラウドAPIへの依存がないためレイテンシが低く、AX非対応アプリへの独自対応と、トレーニングデータ収集を想定した軌跡記録が標準で備わっている点が明確な差別化になっている。

まとめ

Cua Driver v0.0.4は、macOS上でAIエージェントの操作をバックグラウンド化したいユーザーが今日から試せるOSSツールだ。MCP対応によりClaude CodeやCursorとすぐに連携でき、AX非対応アプリへの対応とセッション記録機能が実務でのエージェント活用を一段広げてくれる。