AIエージェントに画面の状況を伝えるとき、スクリーンショットをチャットにドラッグする手間はまだ残っています。開発者のMilind S氏(@milindlabs)は2026年6月13日、画面上の任意の場所を指して文脈を取得し、処理をローカルで完結させるマウスポインタ機能を公開しました。スクリーンショットの手動貼り付けから解放される、AIエージェント向けの新しい入力手段です。
この記事でわかること
- TipTour(Bluey)のマウスポインタ入力が解決する課題
- 画面を指す・描く・話す操作の仕組み
- Claude CodeやCodexなど既存エージェントとの連携方法
- ローカル処理がもたらすプライバシー面の利点
- 類似ツールとの違い
スクリーンショット貼り付けがボトルネックになる理由
Claude Code、Codex、Gemini CLIなどのAIコーディングエージェントは、ターミナル上で動く一方、ユーザーが見ているのはエディタやブラウザ、デザインツールなど別の画面です。UIの不具合やレイアウトの問題をエージェントに伝えるには、スクリーンショットを撮ってチャットに貼り付けるのが一般的でした。
OpenAIのCodexアプリには、前面ウィンドウの画像とテキストを一発で送る「Appshots」機能があります(参考)。ただしこれはCodexアプリ専用で、Claude Codeなど他のエージェントには使えません。サードパーティのAppshots(EYHN/appshots)も登場していますが、前面ウィンドウのキャプチャに限定されるケースがあります。
Milind S氏はX(旧Twitter)で「AIエージェントにスクリーンショットを洞窟人のようにドラッグする必要はもうない」と述べ、画面上のどこでも文脈を取得できるマウスポインタを紹介しました。Peter Steinberger氏(OpenClaw開発者)もCodexへのスクリーンショット手動貼り付けに言及しており、開発者コミュニティで共通の課題として認識されています。
TipTourとは何か
TipTour(別名Bluey)は、Milind S氏が開発したmacOS向けのオープンソースAIポインタです。Google DeepMindが発表した「Magic Pointer」のOSS代替として位置づけられ、GitHubリポジトリ(milind-soni/tiptour-macos)でMITライセンスのもと公開されています。macOS 14以降で動作し、メニューバー常駐型のアプリです。
GoogleのMagic Pointerは、カーソル先の画面要素をAIが理解し、自然言語で操作する機能です(参考)。メール内の日付を指してカレンダー登録を促すなど、ポインタを軸にAIを呼び出します。TipTourはこのコンセプトをmacOS上で再現し、さらに既存のAIエージェントと連携できる設計を取っています。
指す・描く・話す——3つの入力モード
TipTourの核心は、画面上の任意の場所から文脈を取得し、AIエージェントに渡すワークフローです。
音声入力(Ctrl + Option) — ホットキーを押しながら話すと、Gemini Liveがリアルタイムで音声を処理します。画面のスクリーンショットも同時に送られ、カーソル周辺の状況をAIが把握します。
テキスト入力(Ctrl + K) — カーソル付近に小さな入力バーが開き、テキストで指示を送れます。短いポインタ操作はローカルで処理し、複雑な指示はClaudeやHermes Agentにルーティングされます。
フォーカスハイライト(Ctrl + Shift + ドラッグ) — 画面上を自由になぞって範囲を指定します。指定した領域の座標、アクセシビリティ(AX)ツリー上の要素、選択テキスト、スクリーンショット上の座標情報がまとめて文脈として保持されます。「この部分を書き換えて」「ここを明るくして」といった指示に使います。
さらにCtrl + Option + Commandを押すと、カーソル周辺にSpeak・Type・Highlightの3モードを選ぶラジアルスイッチャーが表示されます。入力方法の切り替えをマウス操作だけで完結できます。
ローカル完結の仕組み
Milind S氏が強調する「100パーセントローカル」とは、画面の知覚と操作の処理がマシン内で完結することを指します。TipTourは127.0.0.1:19474でローカルハーネスサーバーを起動し、外部エージェントからHTTPで呼び出せます。
画面の理解には複数のレイヤーを使い分けます。macOSのアクセシビリティツリーでUI要素を取得する方法が最速で、約30ミリ秒で座標を特定できます。ElectronアプリではChromiumのDOM情報にフォールバックし、それでも不十分な場合はローカルのYOLOモデルとApple Vision OCRで画面上の要素を検出します。これらはすべてデバイス上で実行され、クラウドに画面データを送る必要はありません。
APIキー(Gemini、Claudeなど)はmacOSのKeychainに保存されます。ソースビルドではユーザー自身のキーを入力する方式で、開発者のWorker URLがハードコードされることはありません。
既存エージェントとの連携
TipTourの公式サイト(trybluey.com)では、Claude Code、Codex、Gemini、CUA、Composio、Hermes Agent、OpenClawとの連携を掲げています。連携の中心はローカルハーネスサーバーのAPIです。
外部エージェントはGET /v1/observeで現在のアプリ状態を確認し、POST /v1/visual-contextでスクリーンショットやターゲット切り出し画像を取得します。UI要素をクリックする場合はPOST /v1/ground-targetで画面上のターゲットを特定し、POST /v1/actで1アクションずつ実行します。1リクエスト1アクションの原則が徹底されており、エージェント側がループを回す設計です(エージェント契約ドキュメント)。
ハイライトした画像の編集にはPOST /v1/image-editを使います。元ファイルを上書きせず、編集結果をコピーとして保存します。ファイルの解決にはAXドキュメント属性やPreview/FinderのAppleScriptを試み、スクリーンショットのみのフォールバックも用意されています。
Hermes Agentのような外部オーケストレーターは、Web検索やファイル操作などを自分のツールで処理し、ローカルMacの画面操作が必要な場面だけTipTourを呼び出す役割分担が推奨されています。
料金と動作環境
TipTourは無料で、自分のAPIキーを持ち込む(BYOK)方式です。Gemini Liveの音声処理やClaudeのプランニングには、それぞれのプロバイダーのAPI利用料が発生します。macOS 14以降が必要で、マイク・画面収録・アクセシビリティ・画面コンテンツの各権限を許可する必要があります。
ソースからビルドする場合はXcode 16以降が必要です。ターミナルのxcodebuildでのビルドはTCC(Transparency, Consent, and Control)権限を無効化するため、Xcodeから直接実行することが推奨されています。
類似ツールとの違い
| ツール | 特徴 | ローカル処理 | エージェント連携 |
|---|---|---|---|
| TipTour(Bluey) | 指す・描く・話す3モード、ローカルハーネスAPI | 画面知覚・操作はローカル | Claude Code、Codex、Hermes等 |
| Codex Appshots | 前面ウィンドウの画像+テキストを送信 | ローカルキャプチャ | Codexアプリ専用 |
| EYHN/appshots | 前面ウィンドウ+AX状態をクリップボードに | ローカルキャプチャ | クリップボード経由 |
| AIPointer | ホットキーでカーソル周辺を質問 | BYOK、テレメトリなし | オーバーレイ型の質問応答 |
TipTourの差別化ポイントは、画面上の任意の場所を自由にハイライトして文脈を渡せる点と、ローカルハーネスAPIを通じて複数のAIエージェントと直接連携できる点です。Codex AppshotsやEYHN/appshotsが前面ウィンドウ単位のキャプチャに留まるのに対し、TipTourは範囲指定とエージェント向けの構造化されたAPIを提供します。
使い始めるには
trybluey.comからmacOS版をダウンロするか、GitHubリポジトリからソースをビルドします。メニューバーパネルにGemini APIキーを貼り付け、権限を許可すれば音声モードが使えます。エージェント連携を試す場合は、TipTour起動後にcurl http://127.0.0.1:19474/v1/healthでハーネスサーバーの稼働を確認してください。
AIエージェントに画面の文脈を渡す作業は、スクリーンショットの手動貼り付けから、指して描いて話すだけの操作へと移りつつあります。TipTourはその変化をローカル完結で実現する、現時点で最も具体的なOSS実装のひとつです。