動画コンテンツの需要は増え続けています。しかしクラウドAPIを使った動画生成は、従量課金のコストとデータのプライバシーが常に課題です。
脚本から音声、画像、字幕、最終的な動画の合成まで、すべてをPC1台で完結させるローカルAI動画パイプラインが注目を集めています。API費用はゼロ、インターネット接続も不要です。
この記事でわかること
- ローカル動画生成パイプラインの全体像
- 5つのOSSツールそれぞれの役割と特徴
- 必要なハードウェアスペック
- すぐに試せるGitHubプロジェクト
- クラウド型との使い分け
なぜローカル完結が求められるのか
AI動画生成サービスの多くは、APIコールごとに課金が発生します。ショート動画を1本作るだけでも、テキスト生成・画像生成・音声合成・文字起こしの4つのAPIを叩く必要があり、量産するほどコストが膨らみます。
加えて、脚本や音声データをクラウドに送信すること自体がリスクになるケースもあります。社内向けの研修動画や、非公開プロジェクトの解説動画などです。
ローカル完結のパイプラインなら、初回のモデルダウンロード後はオフラインで動作します。飛行機の中でも、機密性の高い環境でも、自分のマシンだけで動画を作れます。
パイプラインの全体像
ローカル動画パイプラインは、5つのOSSツールが直列につながる構成です。
Gemma(脚本生成)→ SDXL(画像生成)→ Kokoro TTS(音声合成)→ Whisper(字幕生成)→ FFmpeg(動画合成)
各ステップの出力が次のステップの入力になります。テーマを与えるだけで、脚本・画像・音声・字幕付きの動画が一本のパイプラインから出てきます。
Gemma — 脚本とプロンプトの自動生成
https://ollama.com/library/gemma4
GemmaはGoogleが公開したオープンソースのLLM(大規模言語モデル)です。Ollama経由でローカル実行し、動画の脚本作成と各シーンの画像プロンプト生成を担当します。
パイプラインでの役割は2つあります。1つ目は、テーマから動画の台本を生成すること。2つ目は、台本の各シーンに対応する画像生成プロンプトを英語で出力することです。SDXLは英語プロンプトの精度が高いため、ここで言語変換も兼ねます。
Gemma 4の12Bモデルであれば16GB RAMのマシンで動作します。27Bモデルは32GB以上が必要ですが、脚本生成の品質は上がります。
SDXL — 高品質な画像の生成
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
SDXL(Stable Diffusion XL)は、Stability AIが公開した画像生成モデルです。1024×1024ピクセルの高解像度画像を生成でき、動画の各シーンに合わせたビジュアルを作成します。
ローカル実行にはComfyUIまたはForgeが定番です。Forgeはワンクリックインストーラーを備えており、SDXLに最適化されたメモリ管理を内蔵しています。Apple Silicon(M1 Pro以降、16GB以上)であれば、ComfyUIのMetalバックエンドで実用的な速度が出ます。
NVIDIA GPUの場合、8GB VRAMでも動作しますが、12GB以上を推奨します。1024×1024の画像1枚あたり約20秒で生成できます。
Kokoro TTS — 自然な音声合成
https://huggingface.co/hexgrad/Kokoro-82M
Kokoro TTSは、わずか82Mパラメータで高品質な音声を合成するオープンソースのTTS(テキスト読み上げ)モデルです。2026年1月にはHugging FaceのTTS Arenaリーダーボードで1位を獲得し、パラメータ数が数十倍のモデルを上回る音声品質を実現しています。
StyleTTS 2アーキテクチャをベースにしたデコーダー専用設計で、拡散モデルのように何百回も反復する必要がありません。1回のフォワードパスで音声を生成するため、CPUだけでもリアルタイム以上の速度で動作します。GPU上ではリアルタイムの210倍という速度が報告されています(参考)。
対応言語は英語を含む8言語、音声は54種類から選べます。日本語にも対応しており、日本語の動画パイプラインにもそのまま組み込めます。モデルサイズは2GB未満で、追加のGPUメモリをほとんど消費しません。
Whisper — 字幕の自動生成
https://github.com/openai/whisper
WhisperはOpenAIが公開した音声認識モデルです。Kokoro TTSが生成した音声ファイルを入力として、タイムスタンプ付きの字幕ファイル(SRT形式)を自動生成します。
標準のWhisperはセグメント単位のタイムスタンプを出力しますが、単語レベルの精度が必要な場合はwhisper-timestampedやWhisperXを使います。WhisperXはwav2vec2によるアライメント処理で、10ミリ秒精度の単語タイムスタンプを生成します(参考)。
Whisper Large V3であれば99以上の言語に対応し、VRAMは4GBで動作します。Kokoro TTSの出力はノイズがないクリーンな音声なので、認識精度も高くなります。
FFmpeg — 動画の最終合成
FFmpegは動画・音声の変換と合成を行うコマンドラインツールです。パイプラインの最終段で、SDXL が生成した画像群、Kokoro TTSの音声、Whisperの字幕をすべて結合し、MP4ファイルとして出力します。
画像をスライドショー形式で並べ、音声トラックを重ね、字幕をハードバーン(焼き付け)またはソフトサブ(別トラック)で追加します。Ken Burns効果(ゆっくりとしたズームやパン)を加えれば、静止画でも動きのある映像になります。
FFmpegはCPUのみで動作し、追加のGPUリソースを必要としません。変換速度はCPUコア数に依存しますが、ショート動画(60秒以下)の合成であれば数秒で完了します。
必要なハードウェア
パイプライン全体を快適に動かすための目安です。
最もリソースを消費するのはSDXLの画像生成です。NVIDIA GPU(12GB VRAM以上)またはApple Silicon(M1 Pro以降、16GB統合メモリ以上)が必要です。RAMは32GB以上を推奨します。SDXLだけが唯一GPUを強く要求するコンポーネントで、GemmaとKokoro TTSとWhisperはCPUでも実用速度が出ます。
ストレージはモデルファイルのダウンロードに50GB以上の空きが必要です。Gemma 12Bが約8GB、SDXLが約7GB、Kokoro TTSが約2GB、Whisper Large V3が約3GBです。
すぐに試せるOSSプロジェクト
個々のツールを自分で連結するのが面倒なら、パイプラインをまとめたOSSプロジェクトがあります。
youtube-shorts-pipeline(GitHub スター約1,900)は、ニュース取得から脚本生成、画像・音声・字幕の作成、YouTube・TikTokへのアップロードまでを一気通貫で自動化するPythonプロジェクトです。画像生成はSDXLやFluxに対応し、TTSはKokoroを含む4種類から選べます(参考)。
OpenMontage(GitHub スター約3,300)は、12種類のパイプラインと52のツールを収録したエージェント型の動画制作システムです。Claude CodeやCursorなどのAIコーディングツールと連携し、自然言語の指示だけで動画を生成します(参考)。
video-creator(GitHub スター約50)は、Ollama+Stable Diffusion+Coqui TTS+Whisperのシンプルな構成で、初回セットアップ後は完全オフラインで動作します。学習目的で構造を理解したい場合に適しています(参考)。
クラウド型との使い分け
ローカルパイプラインは万能ではありません。SDXLの画像品質はMidjourney V7やDALL-E 3には及ばず、Kokoro TTSも感情表現の幅ではElevenLabsに劣ります。ゼロショットのボイスクローン(声の複製)にも対応していません。
一方で、コストがゼロで、データが外部に出ず、ネットワーク遅延もないという利点は大きいです。大量のショート動画を量産する場合や、社内向けコンテンツのように外部送信を避けたい場合に向いています。
クラウドAPIの品質が必要な場面ではクラウド、コストとプライバシーを優先する場面ではローカルと、目的に応じて切り替えるのが現実的です。
次のステップ
手元にGPU搭載のPCがあるなら、まずはvideo-creatorのリポジトリをクローンして構造を把握するのが近道です。パイプラインの各段階で何が起きているかを理解した上で、TTSをKokoroに差し替えたり、画像生成をSDXLに切り替えたりと、自分の用途に合わせたカスタマイズに進めます。
月額課金も、API制限も、データの送信先の心配もない動画制作環境を、自分のマシンの中に持てる時代です。