静的なスライドをそのまま送るより、ナレーション付き動画のほうが伝わりやすい場面は多い。営業資料、投資家向けピッチ、社内研修、教育コンテンツなど、資料を動画に変換する需要は年々増えている。一方で、従来の動画編集ソフトは習得に時間がかかり、クラウドのAI動画サービスは月額料金や従量課金が発生する。
2026年6月、開発者のdirekturcryptoがオープンソースツール「presentation-to-video」を公開した。X(旧Twitter)での告知では、ブラウザ上でピッチデックを動画に変換できると紹介されている。リポジトリ内の正式名称は「AI Video Studio」で、タイトルと指示文を入力するとAIがスライド構成とナレーションを生成し、MP4動画として書き出す仕組みだ。
この記事でわかること
- presentation-to-videoの概要と動作の流れ
- 3言語対応・LLM差し替え・音声エンジン連携の実用ポイント
- ローカル環境での起動手順と利用時の注意点
presentation-to-videoとは
https://github.com/direkturcrypto/presentation-to-video
presentation-to-videoは、GitHubで公開されているMITライセンスのオープンソースプロジェクトだ。2026年6月6日にリポジトリが作成され、6月8日に開発者本人がXで新規リリースとして告知した。READMEによると、コードの多くはOpenClawとClaude Codeを使ったバイブコーディングで書かれている。
ツールの目的は、教育系チュートリアル動画やプレゼン形式の動画を、専門の編集スキルなしで作ることだ。Web UIに動画タイトルと指示文を入力すると、AIがスライド構成・画像プロンプト・効果音・マスコット演出を含む動画プランを生成する。生成されたプランを確認・編集したうえでレンダリングを実行すると、MP4ファイルがダウンロードできる。
従来の動画制作との違い
プレゼン資料の動画化には、PDFをそのまま読み上げる方式と、AIが構成から作り直す方式がある。presentation-to-videoは後者に近い。PDFやPPTXを直接アップロードして変換するのではなく、資料の内容を指示文として渡し、AIが14種類のスライドタイプで動画を組み立てる。
対応するスライドタイプには、テキスト、AI生成画像、スクリーンショット、ターミナル操作デモ、チャットUI、コードスニペット、箇条書き、統計数値、引用、棒グラフ、比較表などが含まれる。指示文の中にスクリーンショットを貼り付けると、その位置にチュートリアル用の画面収録シーンとして組み込まれる。
動画の長さはShort(45〜90秒)、Medium(2.5〜4分)、Long(5〜7分)、Extended(8〜12分)の4段階から選べる。画面比率は16:9、9:16、1:1に対応する。
3言語対応と音声エンジン
direkturcryptoの告知では、英語・インドネシア語・中国語(マンダリン)の3言語に対応するとしている。Web UIの言語選択でも同じ3言語が選べる。インドネシア語のナレーションはElevenLabsを使う設計で、APIキーの設定が必要になる。
音声合成(TTS)は2系統を切り替えられる。1つ目はXiaomi MiMo TTSで、[warmly]や[excitedly]、[pause]といった表現タグをナレーションに埋め込める。VoiceDesign機能でテキストから声質を指定することも可能だ。2つ目はElevenLabsのmultilingual v2モデルで、多言語ナレーションに向いている。シーンごとの効果音(UI音、タイピング音、環境音など)もElevenLabsのサウンド生成APIで追加できる。
任意のLLMを差し替えられる設計
動画プランの生成には、OpenAI互換APIを経由したLLMが使われる。デフォルト設定ではDerouter経由でClaude Opus 4.8が指定されているが、環境変数AI_BASE_URLとAI_API_KEY、AI_MODELを変更すれば、別のプロバイダーやモデルに差し替えられる。OllamaやOpenRouterなど、OpenAI互換エンドポイントを持つサービスなら接続先を自由に選べる。
画像生成も同様に、Derouter経由のgpt-image-2がデフォルトだが、IMAGE_BASE_URLとIMAGE_MODELで変更可能だ。API呼び出しには429エラーや5xxエラーに対する指数バックオフ付きリトライが組み込まれている。
技術構成と処理の流れ
バックエンドはExpress 5、フロントエンドはReact 19とTailwind CSS v4で構成されている。動画の合成にはRemotion 4.0が使われ、Reactコンポーネントとしてスライドを定義し、プログラム的にMP4を書き出す。
処理の流れは次のとおりだ。
- タイトルと指示文を入力し、言語・長さ・画面比率・ビジュアルスタイルを選択する
- LLMがスライド構成とナレーション原稿を生成する(SSEストリーミングで進捗を表示)
- 画像生成APIでスライド用のフラットイラストを作成する
- TTSでナレーション音声を生成する
- ElevenLabsで効果音を生成する
- Remotionでスライド・音声・効果音を合成しMP4を出力する
長尺動画はアウトライン生成とバッチ展開の2段階でプランを組み立て、ゲートウェイのタイムアウトを回避する設計になっている。
ローカルでの起動手順
Node.js 18以上が必要だ。手順はREADMEに記載されている。
git clone https://github.com/direkturcrypto/presentation-to-video.git
cd presentation-to-video
npm install
cp .env.example .env
# .envにAPIキーを設定
npm run server
ブラウザでhttp://localhost:3456を開くとWeb UIが表示される。Settings画面からAI・画像・TTSの各APIキーを設定できる。レンダリングジョブの進捗はJobs画面で確認できる。
料金と利用上の注意
ソフトウェア本体はMITライセンスで無料だ。ただし動画生成には外部APIの利用が前提になる。LLM、画像生成、TTS、効果音の各サービスでAPIキーと従量課金が発生する。Xiaomi MiMo TTSを使えばElevenLabsのコストを抑えられるが、インドネシア語ナレーションはElevenLabsが必要になる。
ローカルサーバーで動かすため、クラウドに資料をアップロードするSaaS型ツールと比べてデータの扱いを自分で管理できる点はメリットだ。一方、APIキーの取得と.envの設定は自分で行う必要がある。
類似ツールとの違い
PDFを直接動画化するOSSとしては、WebGPU上でローカル処理するOrigami AIや、Next.jsベースのPitch Please!などがある。presentation-to-videoはPDFアップロードではなく、AIがスライド構成から動画を一から組み立てる点が異なる。Remotionによるプログラム的な動画合成と、14種類のスライドタイプ、表現タグ付きTTS、効果音生成を組み合わせた点が特徴だ。
こんな用途に向いている
営業チームがピッチ資料の内容を動画化して配布したい場面、開発者がプロダクトのチュートリアル動画を素早く試作したい場面、教育コンテンツを3言語で展開したい場面で、presentation-to-videoの設計は活きる。PDFを丸ごと変換するツールではないため、資料の要点を指示文に整理する手間はある。代わりにスライド構成からAIが組み立てるため、静止画の読み上げより動きのある動画に仕上がる。