タイムラインを触らずに、エージェントへの指示だけで動画編集が完結する時代が来ています。

browser-useチームが公開したオープンソースの「video-use」は、Claude Codeなどのコーディングエージェントにシェルアクセスを渡すだけで、フィラーワード除去から色補正・字幕焼き込みまで任せられる動画編集スキルです。Sakata氏の投稿では、CapCut Proの月額課金と対比しながら、コーディングエージェント経由なら追加費用ゼロで編集できる点が紹介されています(参考)。

この記事では、video-useの仕組みと導入手順、従来の動画編集ソフトとの違いを整理します。

この記事でわかること

  • video-useが解決する動画編集の課題
  • フィラーワード除去・色補正・字幕などの主な機能
  • トランスクリプトを読む設計がトークン消費を抑える理由
  • Claude Codeへの導入手順と必要な環境
  • 有料編集ソフトとの使い分け

video-useとは何か

video-useは、Webブラウザ自動化ツール「browser-use」を手がけるbrowser-useチームが2026年に公開したMITライセンスのオープンソースプロジェクトです。GitHub上では1.4万超のスターが付いており、話題の速さがうかがえます。

公式READMEの説明どおり、生の撮影素材をフォルダに置き、Claude CodeやCodex、Hermes、OpenClawなどのコーディングエージェントに「launch videoに仕上げて」と指示するだけで、edit/final.mp4が出力されます。トークヘッド、モンタージュ、チュートリアル、インタビューなど、プリセットやメニューを使わずに幅広いコンテンツに対応する設計です。

従来の編集ソフトが抱える課題

動画編集の定型作業には、次のような負担がつきまといます。

  • 「えーと」「あの」などのフィラーワードを1語ずつ探してカットする手間
  • テイク間の無音区間を目視で確認する時間
  • カット境界の音割れを防ぐフェード処理
  • 字幕のスタイル調整と焼き込み

CapCutやDaVinci ResolveのようなGUIエディタは直感的ですが、上記の作業は繰り返しが多く、長尺になるほど工数が膨らみます。Sakata氏の投稿では、友人がCapCut Proに月50ドル払いながら720pで書き出している状況と対比し、コーディングエージェント経由なら追加の編集ソフト課金なしで高品質な出力が得られる点を強調しています(参考)。

video-useが提供する機能

video-useのスキル定義(SKILL.md)とREADMEに基づく主な機能は次のとおりです。

フィラーワードと無音区間の自動カット

ElevenLabs Scribeで取得した単語レベルのタイムスタンプをもとに、「umm」「uh」や言い直し、テイク間のデッドスペースを検出してカットします。カット位置は発話境界にスナップされ、単語の途中で切らないルールが組み込まれています。

セグメントごとの自動色補正

warm cinematic(暖かいシネマ調)、neutral punch(ニュートラルでコントラスト強め)などのプリセット、または任意のffmpegフィルタチェーンでセグメント単位の色補正を適用します。

30msのオーディオフェード

すべてのカット境界に30ミリ秒のフェードを入れ、接続部のポップノイズを防ぎます。

字幕の焼き込み

デフォルトは2語ずつの大文字チャンク表示ですが、スタイルは自由にカスタマイズできます。字幕は最終段階で適用されるため、カット作業と干渉しません。

アニメーションオーバーレイの生成

HyperFrames、Remotion、Manim、PILのいずれかでオーバーレイを生成し、並列サブエージェントで1アニメーションずつ処理します。RemotionやManimは初回利用時に遅延インストールされます。

セルフ評価ループ

レンダリング後の出力をカット境界ごとに自動検査し、映像のジャンプや音割れ、隠れた字幕の不具合を検出します。問題があれば修正して再レンダリングし、最大3回までリトライします。

LLMは動画を「見ない」設計が核心

video-useの最大の特徴は、LLMに動画フレームを直接渡さない点です。公式READMEは「The LLM never watches the video. It reads it」と明記しています。

レイヤー1:音声トランスクリプト(常時読み込み)

ソースごとにElevenLabs Scribeを1回呼び出し、単語レベルのタイムスタンプ、話者分離、(laughter)(applause)などの音声イベントを取得します。全テイクを約12KBのtakes_packed.mdにまとめ、LLMの主要な読み取り対象にします。

レイヤー2:ビジュアル合成(必要時のみ)

timeline_viewが指定区間のフィルムストリップ+波形+単語ラベルのPNGを生成します。曖昧な間の取り、リテイク比較、カット位置の確認など、判断が必要な場面でのみ呼び出されます。

従来のフレーム列をLLMに渡す方式では、3万フレーム×1,500トークンで約4,500万トークン相当のノイズになるとREADMEは試算しています。video-useは12KBのテキストと少数のPNGで同等の判断を行うため、トークン消費を99.9%以上削減できます。browser-useがWebページのスクリーンショットではなく構造化DOMをLLMに渡す設計と同じ発想を、動画領域に適用したものです。

DEV Communityのレビューでも、この「トランスクリプトファースト」設計が品質の鍵だと評価されています(参考)。

編集パイプラインの流れ

処理は次の順序で進みます。

  1. Transcribe — ElevenLabs Scribeで文字起こし
  2. Pack — テイクをtakes_packed.mdに統合
  3. LLM Reasons — エージェントが戦略を提案し、ユーザーの承認を待つ
  4. EDL — 編集決定リストを生成
  5. Render — ffmpegで実際の映像を組み立て
  6. Self-Eval — 出力を検査し、問題があれば修正して再レンダリング(最大3回)

「Ask → confirm → execute → self-eval → persist」のサイクルが徹底されており、戦略承認なしにカットを実行しません。セッションの記憶はproject.mdに保存され、翌週の作業でも前回の続きから再開できます。出力ファイルはすべて<動画フォルダ>/edit/に置かれ、スキル本体のディレクトリは汚れません。

Claude Codeへの導入手順

Sakata氏の投稿と公式READMEの手動インストール手順をまとめると、次の流れです。

  1. リポジトリをクローンする
    git clone https://github.com/browser-use/video-use ~/Developer/video-use
  2. 依存関係をインストールする
    cd ~/Developer/video-use && uv sync && brew install ffmpeg
  3. ElevenLabs APIキーを設定する
    .env.example.envにコピーし、ELEVENLABS_API_KEYを記入する
  4. エージェントのスキルディレクトリにシンボリックリンクを張る
    ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
  5. 素材フォルダでエージェントを起動し、編集を指示する
    cd /path/to/your/videos && claude → 「edit these into a launch video」

Sakata氏は全体のセットアップを8分以内で完了できると述べています(参考)。CodexやHermesを使う場合は、リンク先を~/.codex/skills/video-useなど該当ディレクトリに変えます。

費用と必要な環境

video-use本体はMITライセンスで無料です。追加で必要なものは次のとおりです。

  • Claude Codeなどのコーディングエージェント — エージェント自体の利用料は別途発生します
  • ElevenLabs APIキー — 文字起こしにScribe APIを使用します。無料枠の有無はElevenLabsの料金プランに依存します
  • ffmpeg — 映像のレンダリングに必須です
  • uv(またはpip) — Python依存関係の管理に使います

編集ソフトの月額課金は不要ですが、文字起こしAPIの従量課金は発生し得ます。ローカルWhisperだけで完結させたい場合は、別プロジェクトのEasy-Editsやai-video-editorなど、WhisperベースのClaude Codeスキルも選択肢になります。

CapCutなどGUIエディタとの違い

観点 video-use CapCut ProなどGUIエディタ
操作方式 自然言語でエージェントに指示 タイムラインを手動操作
フィラーワード除去 トランスクリプトから自動検出 手動または限定的な自動機能
カスタマイズ ffmpegコマンドやスキル定義で拡張 アプリ内プリセット中心
向いている用途 定型カットの自動化、大量テイク処理 細かい演出、トランジション調整

video-useは「編集の判断」をLLMに、実際の映像処理をffmpegに分担させる設計です。カットの精度はトランスクリプト品質に依存するため、音質の悪い素材ではScribeの認識精度がボトルネックになる場合があります。一方、GUIエディタはピクセル単位の微調整に強く、クリエイティブな演出を手で入れたい場面では依然として有利です。

使い始める前に知っておくこと

video-useはコーディングエージェントのシェル実行を前提とするため、ターミナル操作に抵抗がないユーザー向けです。アニメーションエンジンは初回利用時にインストールされるため、最初のオーバーレイ生成は時間がかかる場合があります。

常時稼働の編集環境が必要な場合は、browser-useチームが提供するBrowser Use BoxやBrowser Use Cloud経由での運用もREADMEで案内されています。VPSやTelegramボット経由でエージェントを動かし、素材をドロップするだけで編集結果を受け取る構成も可能です。

定型のカット作業に時間を取られている開発者やクリエイターにとって、video-useはコーディングエージェントの活用先として有力な選択肢です。タイムラインを開かずに「何を残し何を削るか」を会話で決め、ffmpegが正確に仕上げる。このワークフローは、AIを制作現場に組み込む具体例として参考になります。