ESP32 S3でClaude CodeとCodexを音声遠隔操作

手元の小型ボードから、サーバー上のAIコーディングエージェントを声で動かす構成が話題になっています。キーボードを離したまま、Claude CodeやCodexに指示を出し、進捗をデバイス側で確認できる点が注目されています。

この記事では、2026年6月にRoundtableSpaceが紹介したデモの概要と、同種の仕組みを再現するための技術要素を整理します。

この記事でわかること

RoundtableSpaceが紹介したESP32 S3＋音声操作の構成
サーバー上のClaude Code・Codexを遠隔制御する仕組み
同種の構成を実装する際の主要コンポーネントと注意点

何が起きているか

2026年6月26日、RoundtableSpace（0xMarioNawfal）はXで、ある開発者が作った小型デバイスを紹介しました。Waveshare製ESP32 S3チップだけを使い、サーバー上で動くClaude CodeとCodexを操作する構成です。

投稿によると、オーケストレーター（指揮役）エージェントが音声コマンドを受け取り、ツール経由でデバイスを遠隔制御し、背後のサーバー管理まで担うとされています。動画付きの投稿で、実際の操作イメージが共有されています。

なぜこの構成が必要か

Claude CodeやCodexはターミナル上で動くCLI型のAIコーディングエージェントです。コード生成やファイル編集、テスト実行まで自律的に進めますが、指示の入力と進捗確認は基本的にPCの前で行います。

長時間のセッションでは、ターミナル切り替えやキーボード入力が負担になります。特に複数エージェントを並行運用する場合、どのセッションが何をしているか把握するのも大変です。

ESP32 S3のような低価格な組み込みボードを音声リモコン兼ステータス表示に使えば、PCから離れていても指示を出し、エージェントの状態を手元で確認できます。サーバー上でエージェントを常時稼働させ、小型デバイスを操作端末にする発想は、ホームラボやリモート開発環境への応用余地が大きいです。

技術構成の全体像

RoundtableSpaceの投稿が示す構成は、大きく3層に分かれます。

ESP32 S3デバイス（操作端） — マイクで音声を拾い、ボタン操作で指示を送る。画面があればエージェントの進捗を表示する
サーバー上のブリッジ — 音声をテキスト化（STT）し、Claude CodeやCodexのCLIセッションに渡す
AIエージェント（Claude Code / Codex） — 受け取った指示に基づき、コード生成やファイル操作を実行する

ESP32 S3はWi-Fi内蔵のマイコンで、消費電力が低く、ボタンとマイクを載せた小型ボードが市販されています。WaveshareのESP32-S3系ボードは、電子ペーパー画面やAMOLEDタッチパネル付きのモデルがあり、ステータス表示との相性が良いです。

同種構成のOSS実装例

GitHub - mac20777/vibecoding-voice

Contribute to mac20777/vibecoding-voice development by creating an account on GitHub.

GitHub

RoundtableSpaceの投稿が紹介する個別デモとは別に、同じ発想をオープンソースで実装したプロジェクトがあります。mac20777氏のvibecoding-voiceは、ESP32 e-paperデバイスからClaude CodeやCodexを音声操作するブリッジです。

READMEによると、対応ボードにWaveshare ESP32-S3 e-paper 1.54（200×200の電子ペーパー）が含まれます。ボード上のMEMSマイクとプッシュボタンで、プッシュトゥトーク（押している間だけ録音）方式の音声入力を行います。

音声データは16 kHzモノラルのPCM形式でWebSocket経由でホストブリッジ（Node.js製サーバー）に送られます。STT（音声認識）はVolcengine Flash ASRまたはOpenAI Whisperを使い、テキスト化した指示をエージェントに渡します。

3つの動作モード

vibecoding-voiceは、用途に応じて3モードを切り替えられます。

Injectモード — 転写テキストをアクティブな入力欄に注入する。互換性が最も高い
Codexモード — 転写テキストをCodex CLIセッション（codex exec --json）に直接送る
Claudeモード — 転写テキストをClaude Code CLIセッション（claude -p --output-format stream-json）に直接送る

CodexモードとClaudeモードでは、エージェントが呼び出すツール名や生成したコードの概要が、リアルタイムでe-paper画面に反映されます。キーボード操作を減らしつつ、エージェントの動きを手元で追える点が、この種の構成の核心です。

通信とセキュリティ

デバイスとブリッジの接続には、UDPによるLAN内ホスト自動発見とWebSocket通信が使われます。HMAC-SHA256による認証で、同一ネットワーク内の不正接続を防ぎます。ペアリング情報はNVS（不揮発ストレージ）に保存され、再起動後も再接続できます。

ホストが長時間オフラインになった場合、e-paperボードはディープスリープに入り、バッテリー消費を抑えます。復帰時は自動で再接続を試みる設計です。

セットアップの流れ

vibecoding-voiceを参考に同種の環境を構築する場合、大まかな手順は次のとおりです。

ハードウェア準備 — Waveshare ESP32-S3 e-paper 1.54などの対応ボードを用意し、ファームウェアを書き込む
ホストブリッジのインストール — Node.js 20以上の環境で npm install -g @mac20777/vibecoding-voice を実行する
STT設定 — VolcengineまたはOpenAIのAPIキーを vibe config で設定する
CLIの準備 — Claude Code CLIまたはCodex CLIをPATHに配置する
モード起動 — vibe claude または vibe codex でブリッジとCLIセッションを起動する
デバイス接続 — ESP32を同一Wi-Fiに接続し、LAN内のブリッジを自動発見させる

ボタンを押しながら指示を話し、離すと1秒前後でテキスト化された指示がエージェントに届きます。デバイス側で転写結果の確認を求める設定（confirm_on_device）も選べます。

サーバー運用への拡張

RoundtableSpaceの投稿が強調する「サーバー上で動かす」点は、ホストブリッジをVPSや自宅サーバーに置く構成を指します。vibecoding-voiceのREADMEでも、ブリッジサーバー自体はWindows以外のOSでも動作すると明記されています。

サーバー側にClaude CodeとCodexを常時稼働させ、ESP32デバイスをLAN越しまたはVPN経由で接続すれば、PCの前にいなくてもエージェントへ指示を出せます。オーケストレーターエージェントが複数CLIセッションを管理し、音声指示を適切なエージェントに振り分ける構成は、VoxHerd（jonathanhawkins/voxherd-bridge）のような音声ファーストのマルチセッション管理とも思想が近いです。

注意点

STTコスト — 音声認識APIの利用料が発生する。Volcengineは無料枠があるが、利用量に応じた課金を確認する
ネットワーク依存 — ESP32とブリッジは同一LAN内での利用が前提。リモート接続にはVPNやトンネルが必要
Windows依存機能 — テキスト注入（Injectモード）のクリップボード操作はWindows向け。Codex/ClaudeモードはOS非依存
CLI認証 — サーバー側にClaude CodeやCodexの認証情報を置く必要があり、セキュリティ管理が重要

応用の広がり

この構成はAIコーディングに限りません。ESP32 S3を音声入力端末にし、サーバー上の任意のAIエージェントや自動化スクリプトを遠隔操作する基盤として転用できます。工場の監視端末、スマートホームの制御パネル、在宅ワークの開発リモコンなど、ハードウェアとAIエージェントをつなぐ接点として注目に値します。

小型ボード1枚とサーバー上のCLIエージェントを組み合わせるだけで、音声によるAIコーディングの遠隔操作が実現します。RoundtableSpaceの紹介が示すのは、既存ツールの組み合わせ方の一つの到達点であり、vibecoding-voiceのようなOSSが具体的な再現手段を提供しています。