動画を別の言語に変換する作業は、想像以上に手間がかかります。音声の文字起こし、字幕の翻訳、吹き替え音声の作成、タイミングの調整。10分の動画でも半日がかりになることは珍しくありません。
pyVideoTransは、この一連の工程をワンクリックで完結させるオープンソースの動画翻訳ツールです。GitHubスター数は1万7,000を超え、ソフトウェア自体は完全無料で全機能が使えます。
この記事でわかること
- pyVideoTransが解決する動画翻訳の課題
- 音声認識・翻訳・吹き替えで使えるAIエンジンの種類
- ボイスクローンと話者分離の仕組み
- Windows・macOS・Linuxでのセットアップ手順
- 商用サービスとの違い
pyVideoTransの概要
pyVideoTransは、動画の音声を別言語に翻訳し、字幕と吹き替え音声を付けた新しい動画を生成するPython製ツールです。GPL v3ライセンスで公開されており、2023年10月の初回リリースから開発が続いています。2026年4月時点の最新バージョンはv3.99です。
処理の流れは4ステップで構成されています。まず音声認識(ASR)で元言語の字幕を自動生成し、次にその字幕をターゲット言語に翻訳します。翻訳テキストをTTS(音声合成)で吹き替え音声に変換し、最後に元の動画へ合成して出力します。GUIとCLIの両方に対応しており、デスクトップでもサーバーでも運用できます。
動画翻訳をローカルで完結させる意味
海外の技術カンファレンスの動画を日本語化したい。自社の研修動画を海外拠点向けに翻訳したい。こうしたニーズは増えていますが、商用の動画翻訳サービスは動画の長さに応じた従量課金が一般的です。長時間コンテンツを定期的に処理するとコストが膨らみます。
もう一つの問題はプライバシーです。社内の教育動画やクライアント向け資料をクラウドにアップロードすることに抵抗がある組織は少なくありません。pyVideoTransはローカルモデルだけで全工程を動かせるため、データを外部に送らずに済みます。
音声認識(ASR)の選択肢
対応するASRエンジンはローカル・クラウド合わせて10種類以上あります。推奨はFaster-Whisperで、NVIDIA GPUがあれば高速に動作します。CPUだけでも処理は可能ですが、長い動画では時間がかかります。
クラウドAPIではOpenAI Whisper API、Alibaba Qwen3-ASR、ByteDance Volcanoなどが使えます。中国語の認識精度を重視する場合はAlibaba FunASRやQwen3-ASRが適しています。
WhisperXとParakeetでは話者分離(Speaker Diarization)にも対応しています。対談や会議の動画で、誰がどの発言をしたかを自動判別し、話者ごとに字幕を分けられます。
翻訳エンジンの使い分け
翻訳にはLLM(大規模言語モデル)と従来型機械翻訳の両方を使えます。DeepSeek、ChatGPT、Claude、Geminiなど主要LLMに対応しており、文脈を考慮した自然な訳文が得られます。技術動画の専門用語が多いコンテンツではLLM翻訳が有利です。
Google翻訳やMicrosoft翻訳といった従来型も選べます。処理速度が速く、APIコストも低めです。完全オフラインで動かしたい場合はOllamaやM2M100を使います。
プロンプトのカスタマイズにも対応しているため、翻訳の口調や用語の統一ルールをLLMに指示できます。
AI吹き替えとボイスクローン
TTSエンジンはMicrosoftのEdge TTSが無料で利用でき、品質も実用水準です。より高品質な音声が必要な場合はOpenAI TTS、Azure TTS、ChatTTSなどを選べます。
注目はボイスクローン機能です。F5-TTS、CosyVoice、GPT-SoVITSの3つのモデルに対応しており、元の話者の声質を再現した吹き替え音声を生成できます。いずれもゼロショット方式で、数秒のサンプル音声があれば話者の声を模倣します。事前のファインチューニングは不要です。
複数の話者がいる動画では、話者ごとに異なるTTS音声を割り当てる「マルチロール吹き替え」が使えます。話者分離と組み合わせれば、対談動画でも話者Aと話者Bに別々の声を割り当てられます。
各工程での手動校正
全自動で処理するだけでなく、音声認識・翻訳・吹き替えの各段階で処理を一時停止し、手動で修正を加えることもできます。自動生成された字幕の誤認識を直したい、特定のフレーズの翻訳を変えたいといった場面で役立ちます。
品質と効率のバランスを取りやすい設計です。まず全自動で通してから、気になる箇所だけ手動で調整するワークフローが現実的です。
セットアップ手順
Windows 10/11向けにはexe形式のパッケージが提供されています。ダウンロードして解凍し、sp.exeを起動するだけです。Pythonのインストールは不要です。GPU加速を使う場合はCUDA 12.8とcuDNN 9.11を事前にインストールします。
macOSとLinuxではソースからデプロイします。Python 3.10〜3.12とFFmpegが必要です。パッケージ管理にはuvが推奨されています。
git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
uv sync
uv run sp.py
CLIモードではヘッドレス実行が可能です。サーバー上でのバッチ処理や自動化パイプラインに組み込めます。
uv run cli.py --task vtv --name "./video.mp4" --source_language_code ja --target_language_code en
料金と商用サービスとの比較
ソフトウェア自体は完全無料で、機能制限もありません。Faster-Whisper、Ollama、Edge TTS、M2M100などローカルモデルだけで構成すれば、ランニングコストはゼロです。DeepSeekやChatGPTなどの外部APIを使う場合のみ、各サービスの従量課金が発生します。
HeyGen、Rask AIなどの商用動画翻訳サービスと比べると、pyVideoTransの強みはコストとプライバシーです。月額課金なし、処理分数の制限なし、データのクラウド送信なしで使えます。
一方、商用サービスが備えるリップシンク(口の動きと音声の同期)機能はpyVideoTransにはありません。映像の自然さを最優先にするユースケースでは商用サービスが適しています。コストとプライバシーを優先し、字幕と吹き替え音声の品質で勝負する場面ではpyVideoTransが有力です。
導入に向いているケース
技術カンファレンスや教育コンテンツの多言語化、社内研修動画の翻訳、個人クリエイターの海外展開など、定期的に動画翻訳が発生する環境で真価を発揮します。GitHubリポジトリにはドキュメントと専用Q&Aフォーラム(bbs.pyvideotrans.com)が整備されているため、トラブルシュート情報も見つけやすい状態です。ローカルモデルだけで始めて、品質を上げたい工程だけAPIに切り替えるアプローチが現実的です。