動画を別の言語に変換する作業は、想像以上に手間がかかります。音声の文字起こし、字幕の翻訳、吹き替え音声の作成、タイミングの調整。10分の動画でも半日がかりになることは珍しくありません。

pyVideoTransは、この一連の工程をワンクリックで完結させるオープンソースの動画翻訳ツールです。GitHubスター数は1万7,000を超え、ソフトウェア自体は完全無料で全機能が使えます。

この記事でわかること

  • pyVideoTransが解決する動画翻訳の課題
  • 音声認識・翻訳・吹き替えで使えるAIエンジンの種類
  • ボイスクローンと話者分離の仕組み
  • Windows・macOS・Linuxでのセットアップ手順
  • 商用サービスとの違い

pyVideoTransの概要

pyVideoTransは、動画の音声を別言語に翻訳し、字幕と吹き替え音声を付けた新しい動画を生成するPython製ツールです。GPL v3ライセンスで公開されており、2023年10月の初回リリースから開発が続いています。2026年4月時点の最新バージョンはv3.99です。

処理の流れは4ステップで構成されています。まず音声認識(ASR)で元言語の字幕を自動生成し、次にその字幕をターゲット言語に翻訳します。翻訳テキストをTTS(音声合成)で吹き替え音声に変換し、最後に元の動画へ合成して出力します。GUIとCLIの両方に対応しており、デスクトップでもサーバーでも運用できます。

動画翻訳をローカルで完結させる意味

海外の技術カンファレンスの動画を日本語化したい。自社の研修動画を海外拠点向けに翻訳したい。こうしたニーズは増えていますが、商用の動画翻訳サービスは動画の長さに応じた従量課金が一般的です。長時間コンテンツを定期的に処理するとコストが膨らみます。

もう一つの問題はプライバシーです。社内の教育動画やクライアント向け資料をクラウドにアップロードすることに抵抗がある組織は少なくありません。pyVideoTransはローカルモデルだけで全工程を動かせるため、データを外部に送らずに済みます。

音声認識(ASR)の選択肢

対応するASRエンジンはローカル・クラウド合わせて10種類以上あります。推奨はFaster-Whisperで、NVIDIA GPUがあれば高速に動作します。CPUだけでも処理は可能ですが、長い動画では時間がかかります。

クラウドAPIではOpenAI Whisper API、Alibaba Qwen3-ASR、ByteDance Volcanoなどが使えます。中国語の認識精度を重視する場合はAlibaba FunASRやQwen3-ASRが適しています。

WhisperXとParakeetでは話者分離(Speaker Diarization)にも対応しています。対談や会議の動画で、誰がどの発言をしたかを自動判別し、話者ごとに字幕を分けられます。

翻訳エンジンの使い分け

翻訳にはLLM(大規模言語モデル)と従来型機械翻訳の両方を使えます。DeepSeek、ChatGPT、Claude、Geminiなど主要LLMに対応しており、文脈を考慮した自然な訳文が得られます。技術動画の専門用語が多いコンテンツではLLM翻訳が有利です。

Google翻訳やMicrosoft翻訳といった従来型も選べます。処理速度が速く、APIコストも低めです。完全オフラインで動かしたい場合はOllamaやM2M100を使います。

プロンプトのカスタマイズにも対応しているため、翻訳の口調や用語の統一ルールをLLMに指示できます。

AI吹き替えとボイスクローン

TTSエンジンはMicrosoftのEdge TTSが無料で利用でき、品質も実用水準です。より高品質な音声が必要な場合はOpenAI TTS、Azure TTS、ChatTTSなどを選べます。

注目はボイスクローン機能です。F5-TTS、CosyVoice、GPT-SoVITSの3つのモデルに対応しており、元の話者の声質を再現した吹き替え音声を生成できます。いずれもゼロショット方式で、数秒のサンプル音声があれば話者の声を模倣します。事前のファインチューニングは不要です。

複数の話者がいる動画では、話者ごとに異なるTTS音声を割り当てる「マルチロール吹き替え」が使えます。話者分離と組み合わせれば、対談動画でも話者Aと話者Bに別々の声を割り当てられます。

各工程での手動校正

全自動で処理するだけでなく、音声認識・翻訳・吹き替えの各段階で処理を一時停止し、手動で修正を加えることもできます。自動生成された字幕の誤認識を直したい、特定のフレーズの翻訳を変えたいといった場面で役立ちます。

品質と効率のバランスを取りやすい設計です。まず全自動で通してから、気になる箇所だけ手動で調整するワークフローが現実的です。

セットアップ手順

Windows 10/11向けにはexe形式のパッケージが提供されています。ダウンロードして解凍し、sp.exeを起動するだけです。Pythonのインストールは不要です。GPU加速を使う場合はCUDA 12.8とcuDNN 9.11を事前にインストールします。

macOSとLinuxではソースからデプロイします。Python 3.10〜3.12とFFmpegが必要です。パッケージ管理にはuvが推奨されています。

git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
uv sync
uv run sp.py

CLIモードではヘッドレス実行が可能です。サーバー上でのバッチ処理や自動化パイプラインに組み込めます。

uv run cli.py --task vtv --name "./video.mp4" --source_language_code ja --target_language_code en

料金と商用サービスとの比較

ソフトウェア自体は完全無料で、機能制限もありません。Faster-Whisper、Ollama、Edge TTS、M2M100などローカルモデルだけで構成すれば、ランニングコストはゼロです。DeepSeekやChatGPTなどの外部APIを使う場合のみ、各サービスの従量課金が発生します。

HeyGen、Rask AIなどの商用動画翻訳サービスと比べると、pyVideoTransの強みはコストとプライバシーです。月額課金なし、処理分数の制限なし、データのクラウド送信なしで使えます。

一方、商用サービスが備えるリップシンク(口の動きと音声の同期)機能はpyVideoTransにはありません。映像の自然さを最優先にするユースケースでは商用サービスが適しています。コストとプライバシーを優先し、字幕と吹き替え音声の品質で勝負する場面ではpyVideoTransが有力です。

導入に向いているケース

技術カンファレンスや教育コンテンツの多言語化、社内研修動画の翻訳、個人クリエイターの海外展開など、定期的に動画翻訳が発生する環境で真価を発揮します。GitHubリポジトリにはドキュメントと専用Q&Aフォーラム(bbs.pyvideotrans.com)が整備されているため、トラブルシュート情報も見つけやすい状態です。ローカルモデルだけで始めて、品質を上げたい工程だけAPIに切り替えるアプローチが現実的です。