ViMax — テキストから長編AI動画を生成するOSSの全機能

アイデアを数行書くだけで、脚本・絵コンテ・動画が自動で生成される。それがViMaxの目指す未来です。

HKUDSが公開したOSS「ViMax」は、監督・脚本家・プロデューサー・動画生成エンジンをまとめたマルチエージェントフレームワークです。GitHubスター数3,200超えで注目を集めています。

この記事でわかること：

ViMaxが解決する動画生成の3つの課題
4つのモード（Idea2Video、Novel2Video、Script2Video、AutoCameo）の違い
マルチエージェントパイプラインの仕組み
インストールと設定の手順

AIによる動画生成が抱える3つの問題

既存のAI動画ツールには、大きく3つの限界があります。

まず、生成できる動画がほぼ数秒単位の短いクリップに限られます。次に、複数シーンをまたいだときにキャラクターや背景が別人・別景色に変わってしまう一貫性の問題があります。そして、映像だけが得意で、脚本・ナレーション・音声といったストーリー構造を扱う機能が欠けています。

ViMaxはこれら3点をマルチエージェント構成で解決します。

4つのモード

ViMaxには入力の種類に応じて4つのモードがあります。

Idea2Video は最もシンプルな使い方です。「猫と犬が親友になったら、新しい猫に出会ったときどうなるか？」のようなアイデアを数行書くだけで、脚本→絵コンテ→動画の生成まで一気通貫で処理します。

Novel2Video は長編テキストを扱います。小説のような長い文書をRAGで解析してシーン分割し、エピソード形式の動画へと変換します。キャラクターの外見やセリフの一貫性を保ちながら章ごとに映像化できます。

Script2Video は既存の脚本を入力するモードです。シーン名・登場人物・ト書きの形式で記述した脚本を渡すと、カメラワークやショット設計を自動で行い動画を出力します。

AutoCameo は自分の写真をアップロードして動画に登場させる機能です。自分やペットをキャラクターとして取り込み、脚本の中で一貫した外見で登場させます。

マルチエージェントパイプラインの仕組み

ViMaxの特徴は、単一モデルではなく複数のエージェントが連携して動作する点です。パイプラインは大きく次の段階を経ます。

最初にスクリプト理解エージェントがキャラクターや環境、シーン境界、スタイルの意図を抽出します。続いてシーン＆ショット設計エージェントが絵コンテとショットリストを生成し、撮影のリズムを確定します。

次にビジュアルアセット計画として参照画像を選定し、画像生成用のプロンプトを自動作成します。画像生成時は複数候補を並列生成し、VLM（Visual Language Model）が最も一貫性の高い1枚を選ぶ品質チェックが入っています。この仕組みにより、人間のクリエイターが行う「使えるカットを選ぶ」工程をAIが代替します。

最後にビジュアル合成＆アセンブリで、選ばれたフレームを動画に変換してタイムラインに組み立て、最終動画を出力します。

インストールと設定

動作環境はLinuxとWindowsです。uv を使ったパッケージ管理が前提になります。

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

設定は configs/idea2video.yaml に3つのAPIを記述します。

chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <OPENROUTER_KEY>
    base_url: https://openrouter.ai/api/v1

image_generator:
  class_path: tools.ImageGeneratorNanobananaGoogleAPI
  init_args:
    api_key: <NANO_BANANA_KEY>

video_generator:
  class_path: tools.VideoGeneratorVeoGoogleAPI
  init_args:
    api_key: <GOOGLE_API_KEY>

会話モデルにはGemini（OpenRouter経由）またはMiniMaxが使えます。MiniMaxはM2.7（コンテキスト1Mトークン）とM2.5（204K）に対応しています。画像生成にはNano Banana（GoogleのGemini 2.5 Flashベースの画像モデル）、動画生成にはVeo（Google）を使います。どちらもAPIキーが必要で、利用量に応じたコストが発生します。

RunwayやMidjourneyとの違い

RunwayやHeyGenは単発のクリップ生成や動画編集に特化したSaaSです。Midjourneyは画像生成に特化しており、いずれもストーリー全体の構成や複数シーンにまたがる一貫性の維持は手動で行う必要があります。

ViMaxはこれらの機能を単体のPythonフレームワークにまとめ、「アイデアを入力→完成動画を出力」というパイプラインを一元管理します。ソフトウェア自体はMITライセンスで無料ですが、内部で使うAPI（Veo、Nano Banana、OpenRouter）の利用料は別途かかります。

まとめ

ViMaxは、AIによる動画生成の「一貫性の欠如」と「短クリップの限界」を、マルチエージェント構成で突破しようとするOSSです。Idea2VideoからAutoCameoまで4つのモードがあり、アイデアから長尺動画を生成できる点が最大の特徴です。コードはGitHubで公開されており、スター数はすでに3,200を超えています。