Mac操作をMCPに載せる Open Computer Useの実力

MacをAIエージェントの操作盤に変えたいなら、open-computer-use はかなり分かりやすい選択肢です。macOSのアクセシビリティAPIを使い、MCP経由でAIエージェントからアプリ操作を呼べるので、画面操作を前提にした作業をそのまま自動化の対象にできます。

この記事では、open-computer-use が何を解決するのか、導入時に何が必要か、どこで使うと効果が出るかを整理します。

open-computer-use の役割
MCP経由でMac操作をつなぐ手順
実務で刺さる使いどころ
導入前に押さえる注意点

https://github.com/iFurySt/open-codex-computer-use

Macを直接操作させる意味

従来のAI連携は、APIが用意されたサービスだけを相手にすることが多く、GUI操作が必要な仕事は人が最後まで担当していました。open-computer-use はそこを埋めます。AIエージェントがアプリを開き、クリックし、入力し、ショートカットを叩く流れを、MCPサーバーとして外に公開します。

この設計の利点は、対象が特定アプリに閉じないことです。メール、ブラウザ、テキスト編集、社内ツールのように、画面を持つアプリなら同じ枠組みで扱えます。APIがないから自動化できない、という制約をかなり減らせます。

何が公開されるのか

open-computer-use は、macOS上のComputer Use機能をMCPで利用できる形にしたプロジェクトです。READMEでは、任意のAIエージェントやMCPクライアントから呼び出せる点が明示されています。つまり、AI側から見れば「Macを操作する道具」が1つ増えるのではなく、既存のエージェントに標準的な接続口が増える、という理解が正確です。

加えて、この実装はOpenAIのCodex Computer Useに触発されたと説明されています。重要なのは模倣そのものではなく、macOSのアクセシビリティ基盤を使った非侵襲的な操作モデルを、オープンソースとして再現している点です。閉じた製品の機能を待たずに、手元で検証しやすい形に落としています。

導入の壁は何か

導入時にまず必要なのは、macOSの Accessibility と Screen Recording 権限です。ここが許可されていないと、AIは画面もUI要素も見られません。逆に言えば、この2つを通せば、アプリ操作の土台はかなり早く作れます。

READMEには、open-computer-use をグローバルインストールし、MCPクライアントにサーバー定義を足す流れが載っています。難しいのは設定ファイルの書き方ではなく、どの操作をAIに任せ、どこで人が止めるかを先に決めることです。ここを曖昧にすると、便利さより事故のほうが先に来ます。

実務で効く場面

一番わかりやすいのは、Web上の定型作業です。たとえば管理画面へのログイン、項目の転記、フォーム送信、ブラウザ確認のような作業は、APIがなくても画面ベースなら一気通貫で任せられます。

次に相性がいいのは、アプリをまたぐ作業です。Slackで受けた依頼をブラウザで確認し、ローカルファイルを開いて修正し、最後に別アプリへ貼り戻すような流れは、単体の自動化ツールでは断ち切れがちです。MCPで操作を公開しておくと、AIは1つの会話の中で複数アプリを横断できます。

さらに、再現性のある手順の検証にも向きます。毎回同じ順番で画面を触るなら、AIに実行させてログを残したほうが、人が手作業で覚えるより保守しやすくなります。

どこが強くて、どこが弱いか

open-computer-use の強みは、オープンソースであることと、MCPでつながることです。これにより、Claude CodeやCodexのようなクライアント側の流儀に寄せすぎず、手元のエージェント基盤に合わせて組み込みやすくなります。READMEには install-claude-mcp や install-codex-mcp もあり、主要クライアントへの導線が最初から用意されています。

一方で、GUI操作は本質的に壊れやすいです。ボタンの位置、ウィンドウの重なり、ダイアログの有無で挙動が変わります。API連携のような決定論はありません。なので、成功率の高い手順に絞る、危険な操作は人間確認を挟む、失敗時の巻き戻しを用意する、といった運用が前提です。

似た道具との違い

同種の仕組みは増えていますが、open-computer-use は「MacをAIに見せる」のではなく「Mac操作そのものをMCPで公開する」点が分かりやすいです。ここがポイントです。単なる画面認識ツールではなく、エージェントのツールとして組み込む前提で設計されています。

そのため、個人のデモ用途だけでなく、既存のエージェントワークフローに足し込む用途に向きます。ブラウザ拡張や個別のRPAよりも、AI側の制御面を残しやすいのが強みです。

使い始めるなら

最初は小さく始めるのが妥当です。メール送信、ファイル名の変更、特定サイトの定型入力など、失敗しても被害が小さい操作から試すべきです。複雑な業務フローをいきなり全自動にすると、操作の揺れを吸収できません。

次の一歩としては、MCPクライアントに open-computer-use をつなぎ、1つの業務手順だけを自動化することです。そこで安定するなら、似た手順を増やしていけばよいです。逆に、安定しないなら、対象をAPI寄りに戻すか、手順を分解したほうが早いです。

open-computer-use は、Macの画面操作をAIに渡すための実装を、検証しやすい形で提示したプロジェクトです。GUI前提の仕事をAIワークフローに入れたいなら、まず試す価値があります。