アイデアを数行書くだけで、脚本・絵コンテ・動画が自動で生成される。それがViMaxの目指す未来です。
HKUDSが公開したOSS「ViMax」は、監督・脚本家・プロデューサー・動画生成エンジンをまとめたマルチエージェントフレームワークです。GitHubスター数3,200超えで注目を集めています。
この記事でわかること:
- ViMaxが解決する動画生成の3つの課題
- 4つのモード(Idea2Video、Novel2Video、Script2Video、AutoCameo)の違い
- マルチエージェントパイプラインの仕組み
- インストールと設定の手順
https://github.com/HKUDS/ViMax
AIによる動画生成が抱える3つの問題
既存のAI動画ツールには、大きく3つの限界があります。
まず、生成できる動画がほぼ数秒単位の短いクリップに限られます。次に、複数シーンをまたいだときにキャラクターや背景が別人・別景色に変わってしまう一貫性の問題があります。そして、映像だけが得意で、脚本・ナレーション・音声といったストーリー構造を扱う機能が欠けています。
ViMaxはこれら3点をマルチエージェント構成で解決します。
4つのモード
ViMaxには入力の種類に応じて4つのモードがあります。
Idea2Video は最もシンプルな使い方です。「猫と犬が親友になったら、新しい猫に出会ったときどうなるか?」のようなアイデアを数行書くだけで、脚本→絵コンテ→動画の生成まで一気通貫で処理します。
Novel2Video は長編テキストを扱います。小説のような長い文書をRAGで解析してシーン分割し、エピソード形式の動画へと変換します。キャラクターの外見やセリフの一貫性を保ちながら章ごとに映像化できます。
Script2Video は既存の脚本を入力するモードです。シーン名・登場人物・ト書きの形式で記述した脚本を渡すと、カメラワークやショット設計を自動で行い動画を出力します。
AutoCameo は自分の写真をアップロードして動画に登場させる機能です。自分やペットをキャラクターとして取り込み、脚本の中で一貫した外見で登場させます。
マルチエージェントパイプラインの仕組み
ViMaxの特徴は、単一モデルではなく複数のエージェントが連携して動作する点です。パイプラインは大きく次の段階を経ます。
最初にスクリプト理解エージェントがキャラクターや環境、シーン境界、スタイルの意図を抽出します。続いてシーン&ショット設計エージェントが絵コンテとショットリストを生成し、撮影のリズムを確定します。
次にビジュアルアセット計画として参照画像を選定し、画像生成用のプロンプトを自動作成します。画像生成時は複数候補を並列生成し、VLM(Visual Language Model)が最も一貫性の高い1枚を選ぶ品質チェックが入っています。この仕組みにより、人間のクリエイターが行う「使えるカットを選ぶ」工程をAIが代替します。
最後にビジュアル合成&アセンブリで、選ばれたフレームを動画に変換してタイムラインに組み立て、最終動画を出力します。
インストールと設定
動作環境はLinuxとWindowsです。uv を使ったパッケージ管理が前提になります。
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
設定は configs/idea2video.yaml に3つのAPIを記述します。
chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
model_provider: openai
api_key: <OPENROUTER_KEY>
base_url: https://openrouter.ai/api/v1
image_generator:
class_path: tools.ImageGeneratorNanobananaGoogleAPI
init_args:
api_key: <NANO_BANANA_KEY>
video_generator:
class_path: tools.VideoGeneratorVeoGoogleAPI
init_args:
api_key: <GOOGLE_API_KEY>
会話モデルにはGemini(OpenRouter経由)またはMiniMaxが使えます。MiniMaxはM2.7(コンテキスト1Mトークン)とM2.5(204K)に対応しています。画像生成にはNano Banana(GoogleのGemini 2.5 Flashベースの画像モデル)、動画生成にはVeo(Google)を使います。どちらもAPIキーが必要で、利用量に応じたコストが発生します。
RunwayやMidjourneyとの違い
RunwayやHeyGenは単発のクリップ生成や動画編集に特化したSaaSです。Midjourneyは画像生成に特化しており、いずれもストーリー全体の構成や複数シーンにまたがる一貫性の維持は手動で行う必要があります。
ViMaxはこれらの機能を単体のPythonフレームワークにまとめ、「アイデアを入力→完成動画を出力」というパイプラインを一元管理します。ソフトウェア自体はMITライセンスで無料ですが、内部で使うAPI(Veo、Nano Banana、OpenRouter)の利用料は別途かかります。
まとめ
ViMaxは、AIによる動画生成の「一貫性の欠如」と「短クリップの限界」を、マルチエージェント構成で突破しようとするOSSです。Idea2VideoからAutoCameoまで4つのモードがあり、アイデアから長尺動画を生成できる点が最大の特徴です。コードはGitHubで公開されており、スター数はすでに3,200を超えています。