画面を見ながら、音声でリアルタイムに教えてくれるAIが登場しました。

「Clicky」はmacOS用のオープンソースアプリです。プッシュトゥトークで話しかけると、その瞬間の画面とセットにしてClaudeへ送信し、ElevenLabsの音声で回答が返ってきます。さらに、画面上の特定の場所をカーソルで指し示しながら説明する機能も備えています。

この記事でわかること:

  • Clickyが解決する「ひとりで詰まる」問題の構造
  • 音声・画面認識の仕組みとAPIの連携
  • 自分でビルドするためのセットアップ手順
  • 公式版の入手方法と料金

https://github.com/farzaa/clicky

「詰まったとき、聞ける人がいない」という問題

コードを書いていて動作の意味がわからない、新しいツールの使い方を調べながら作業を止めてしまう——そうした状況は、隣に詳しい人がいれば数秒で解決することが多い。

Clickyはその状況を変えることを目的としたツールです。Control + Option を押しながら話しかけると、その瞬間の画面スクリーンショットと音声テキストがまとめてClaudeへ送られます。回答は音声で再生されるため、キーボードから手を離さずに教えてもらえます。

3つのAPIが連携して動く仕組み

ClickyはDockに表示されないメニューバーアプリとして動作します。内部ではAssemblyAI・Claude(Anthropic)・ElevenLabsという3種類の外部APIが順番に連携しています。

まず、プッシュトゥトークの音声をWebSocketでAssemblyAIにストリーミングし、リアルタイムでテキストに変換します。次に、そのテキストとScreenCaptureKitで撮ったスクリーンショットをストリーミングSSEでClaudeへ送ります。最後に、Claudeのレスポンスをリアルタイムでタグ解析しながらElevenLabsのTTSで音声再生します。

ユニークなのが [POINT:x,y:label:screenN] というタグの仕組みです。Claudeがこのタグをレスポンスに埋め込むと、青いカーソルオーバーレイが画面の指定座標へ飛んでいき、「ここをクリック」と視覚的に示せます。複数モニター環境にも対応しており、実際に隣で教師が指さしているような感覚を再現しています。

APIキーはCloudflare Workerのプロキシに保持されるため、アプリのバイナリにキーが含まれません。セキュリティ面でも考慮されています。

セットアップに必要なもの

自分でビルドする場合は、以下の環境と外部サービスのアカウントが必要です。

  • macOS 14.2以上(ScreenCaptureKit対応のため)
  • Xcode 15以上
  • Node.js 18以上
  • Cloudflareアカウント(無料プランで動作)
  • Anthropic、AssemblyAI、ElevenLabsのAPIキー

最も手軽な方法は、Claude Codeに以下のプロンプトを渡す方法です。リポジトリのクローンから Cloudflare Worker のデプロイ、Xcodeのビルド設定まで、対話的に案内してくれます。

Hi Claude.

Clone https://github.com/farzaa/clicky.git into my current directory.

Then read the CLAUDE.md. I want to get Clicky running locally on my Mac.

Help me set up everything — the Cloudflare Worker with my own API keys, the proxy URLs, and getting it building in Xcode.

手動の場合は、まずCloudflare WorkerにAPIキーを3つ登録してデプロイし、SwiftコードのプロキシURLを自分のWorker URLに書き換え、leanring-buddy.xcodeproj(プロジェクト名のタイポは意図的とのこと)をXcodeで開いてビルドします。

起動すると、メニューバーにアイコンが表示されます。マイク・アクセシビリティ・画面収録の権限を付与すれば使い始められます。

料金とオープンソースの状況

ClickyはMITライセンスで公開されており、コード自体は無料です。ただし実際の動作には3つの外部APIが必要で、それぞれ利用量に応じた料金が発生します。

作者のFarza氏はその後、APIキー不要で使える商用版「heyclicky.com」を開始しています。OSSリポジトリは2026年4月27日を最後に主要機能の追加が止まっており、最新機能を試したい場合は公式サービス側を利用する形になっています。

GitHubのスター数は5,500超、フォーク数は1,000超に達しており(2026年5月8日時点)、個人プロジェクトとして異例の反響を集めました。XDA Developersが「今年試した中で最も役立つもの」と評するなど、メディアでも注目されています。

既存のAIチャットとの違い

ChatGPTやClaude.aiのWebインターフェースとの最大の差は「アプリを切り替えずに聞けること」です。作業画面はそのままに、手元のホットキーだけで質問できます。

GitHub Copilot Chatはエディタ内のコードに特化していますが、Clickyはブラウザ、デザインツール、ターミナル、ゲームなどあらゆるアプリの画面に対応します。「このUIの何をクリックすればいい?」という種類の質問に答えられるのはClickyの強みです。

現時点ではmacOS専用で、Windowsへの対応はOSSリポジトリのスコープ外となっています。