画面を見ながら、音声でリアルタイムに教えてくれるAIが登場しました。
「Clicky」はmacOS用のオープンソースアプリです。プッシュトゥトークで話しかけると、その瞬間の画面とセットにしてClaudeへ送信し、ElevenLabsの音声で回答が返ってきます。さらに、画面上の特定の場所をカーソルで指し示しながら説明する機能も備えています。
この記事でわかること:
- Clickyが解決する「ひとりで詰まる」問題の構造
- 音声・画面認識の仕組みとAPIの連携
- 自分でビルドするためのセットアップ手順
- 公式版の入手方法と料金
https://github.com/farzaa/clicky
「詰まったとき、聞ける人がいない」という問題
コードを書いていて動作の意味がわからない、新しいツールの使い方を調べながら作業を止めてしまう——そうした状況は、隣に詳しい人がいれば数秒で解決することが多い。
Clickyはその状況を変えることを目的としたツールです。Control + Option を押しながら話しかけると、その瞬間の画面スクリーンショットと音声テキストがまとめてClaudeへ送られます。回答は音声で再生されるため、キーボードから手を離さずに教えてもらえます。
3つのAPIが連携して動く仕組み
ClickyはDockに表示されないメニューバーアプリとして動作します。内部ではAssemblyAI・Claude(Anthropic)・ElevenLabsという3種類の外部APIが順番に連携しています。
まず、プッシュトゥトークの音声をWebSocketでAssemblyAIにストリーミングし、リアルタイムでテキストに変換します。次に、そのテキストとScreenCaptureKitで撮ったスクリーンショットをストリーミングSSEでClaudeへ送ります。最後に、Claudeのレスポンスをリアルタイムでタグ解析しながらElevenLabsのTTSで音声再生します。
ユニークなのが [POINT:x,y:label:screenN] というタグの仕組みです。Claudeがこのタグをレスポンスに埋め込むと、青いカーソルオーバーレイが画面の指定座標へ飛んでいき、「ここをクリック」と視覚的に示せます。複数モニター環境にも対応しており、実際に隣で教師が指さしているような感覚を再現しています。
APIキーはCloudflare Workerのプロキシに保持されるため、アプリのバイナリにキーが含まれません。セキュリティ面でも考慮されています。
セットアップに必要なもの
自分でビルドする場合は、以下の環境と外部サービスのアカウントが必要です。
- macOS 14.2以上(ScreenCaptureKit対応のため)
- Xcode 15以上
- Node.js 18以上
- Cloudflareアカウント(無料プランで動作)
- Anthropic、AssemblyAI、ElevenLabsのAPIキー
最も手軽な方法は、Claude Codeに以下のプロンプトを渡す方法です。リポジトリのクローンから Cloudflare Worker のデプロイ、Xcodeのビルド設定まで、対話的に案内してくれます。
Hi Claude.
Clone https://github.com/farzaa/clicky.git into my current directory.
Then read the CLAUDE.md. I want to get Clicky running locally on my Mac.
Help me set up everything — the Cloudflare Worker with my own API keys, the proxy URLs, and getting it building in Xcode.
手動の場合は、まずCloudflare WorkerにAPIキーを3つ登録してデプロイし、SwiftコードのプロキシURLを自分のWorker URLに書き換え、leanring-buddy.xcodeproj(プロジェクト名のタイポは意図的とのこと)をXcodeで開いてビルドします。
起動すると、メニューバーにアイコンが表示されます。マイク・アクセシビリティ・画面収録の権限を付与すれば使い始められます。
料金とオープンソースの状況
ClickyはMITライセンスで公開されており、コード自体は無料です。ただし実際の動作には3つの外部APIが必要で、それぞれ利用量に応じた料金が発生します。
作者のFarza氏はその後、APIキー不要で使える商用版「heyclicky.com」を開始しています。OSSリポジトリは2026年4月27日を最後に主要機能の追加が止まっており、最新機能を試したい場合は公式サービス側を利用する形になっています。
GitHubのスター数は5,500超、フォーク数は1,000超に達しており(2026年5月8日時点)、個人プロジェクトとして異例の反響を集めました。XDA Developersが「今年試した中で最も役立つもの」と評するなど、メディアでも注目されています。
既存のAIチャットとの違い
ChatGPTやClaude.aiのWebインターフェースとの最大の差は「アプリを切り替えずに聞けること」です。作業画面はそのままに、手元のホットキーだけで質問できます。
GitHub Copilot Chatはエディタ内のコードに特化していますが、Clickyはブラウザ、デザインツール、ターミナル、ゲームなどあらゆるアプリの画面に対応します。「このUIの何をクリックすればいい?」という種類の質問に答えられるのはClickyの強みです。
現時点ではmacOS専用で、Windowsへの対応はOSSリポジトリのスコープ外となっています。