アニメキャラのLoRAを作るとき、時間を最も食うのは動画からの切り出しとタグ付けです。

neme-animaはその工程をまるごと自動化するOSSツールです。アニメ動画とキャラクターの参照画像1枚を用意するだけで、抽出・タグ付け・学習の3ステップを一括で処理します。2026年5月1日にMITライセンスで公開されました。

この記事でわかること

  • neme-animaが解決する工数の問題
  • YOLO・ByteTrack・CCIPを使った自動抽出の仕組み
  • WD14による自動タグ付けとデータセット整理
  • 動作環境と1コマンドでのセットアップ手順
  • kohya-ssによる手作業との違い

LoRA作りのボトルネック:抽出とタグ付け

キャラLoRAの制作は、一般的に次の流れをたどります。動画から手動でシーンを選んでキャプチャし、不要なフレームを除外し、各画像にdanbooruスタイルのタグを付け、学習スクリプトを設定して実行する。

この中でも「フレームの選別」と「タグ付け」は特に反復的な作業で、キャラクター1体につき数時間かかることも珍しくありません。

neme-animaはこの部分をパイプライン化し、参照画像さえあれば自動で判断します。

3ステップの処理フロー

ステップ1:動画からのキャラ抽出

PySceneDetectで動画をショット単位に分割し、DeepGHSのYOLOモデルがフレームごとにキャラクターを検出します。ByteTrackが検出を連結してキャラクター単位のトラックレットを生成し、CCIP(Contrastive Captioning Image Pre-training)が参照画像との類似度でどのキャラクターかを判定します。

一致率が低いトラックレットは自動で除外されるため、別キャラや背景キャラが混入しにくい設計です。各トラックレットから鮮明度・可視性・アスペクト比で1〜3フレームが選ばれ、最長辺1024pxで切り出されます。

さらに、近似フレームの重複排除もCCIPで自動処理します。検出・トラッキング結果はキャッシュされるため、閾値を変えて再実行する際は遅い処理をスキップできます。

ステップ2:自動タグ付けとデータセット整理

抽出された各画像に対して、WD14 EVA02-Large v3がkohya-ss形式のタグファイルを生成します。自然言語キャプションも同時に作成され、画像と並んで保存されます。

WebUIのFramesタブでタグをインライン編集でき、正規表現でのバルク編集、タグでの検索・フィルタリングも利用できます。ドラッグ&ドロップで画像を追加・除外したり、別キャラに移動させたりする操作も可能です。

Core-tag pruningという機能も搭載しています。キャラクターの画像の35%以上に出現するタグ(「long hair」「blue eyes」など、そのキャラ固有の外見)をキャプションから除去します。LoRAがそれらの特徴を視覚的に学習するため、キャプションに残してもノイズになるという考え方からきています。

ステップ3:学習

学習はAnima(SDXL系のアニメ特化モデル)をターゲットとしており、バックエンドにdiffusion-pipeを使います。キャラクターごとにLoRAをキューに入れ、1体ずつ順番に学習します。

学習中は停止・再開とチェックポイントの保持に対応しています。Repeat multiplier設定でキャラクターごとのフレーム数の偏りを補正できます(例:フレーム数が少ないキャラを多くサンプリングするなど)。

学習ターゲットはAnima固定ですが、抽出・タグ付けの出力はkohya-ss・OneTrainer・sd-scripts形式に対応しているため、Pony・Illustrious・NoobAI・vanilla SDXLなど他のモデルで学習することも可能です。

動作環境

抽出・タグ付け(ステップ1〜2)

  • NVIDIA GPU(VRAM 4GB以上、8GB推奨)

学習(ステップ3)

  • Linux / WSL2(CUDA 12.4以上)
  • NVIDIA GPU(VRAM 6GB以上、フルレゾLoRAは18GB)

LinuxとWSL2のみの対応で、macOSやWindowsのネイティブ環境はサポート外です。

セットアップ

ワンコマンドでセットアップできます。

bash install_and_run.sh

スクリプトがuvとNode.jsのインストール、Pythonパッケージの同期、フロントエンドのビルド、diffusion-pipeのクローン・環境構築、Animaの学習ウェイト(約14GB)のダウンロードまでを自動で処理します。最後にWebUIが起動します。

再実行は安全で、インストール済みのステップはスキップされます。

モデルのダウンロードをスキップしたい場合は環境変数で制御できます。

SKIP_MODELS=1 bash install_and_run.sh

料金

無料です。MITライセンスのオープンソースで、商用利用も可能です。ただし、学習に使うAnimaウェイトはHugging Faceから個別にダウンロードする必要があります(初回約14GB)。

従来の手作業との違い

kohya-ssやsd-scriptsで一般的な手作業のフローでは、フレームの切り出しから重複排除・タグ付けまでをすべて手動で行います。キャラクターが複数いる動画では、どのフレームにどのキャラクターが映っているかを目視で仕分ける必要もあります。

neme-animaはその「判断」の部分をYOLO・ByteTrack・CCIPに委ねます。抽出精度はキャラクターの外見の独自性や参照画像の品質に依存しますが、初期の絞り込みを自動化することで作業量を大きく減らせます。

一方で、現状は学習ターゲットがAnima固定で、LinuxまたはWSL2環境が必須という制約があります。他のモデルで学習したい場合は、ステップ2までで出力したデータセットを他のツールに渡す運用が必要です。

まとめ

neme-animaは、アニメキャラLoRA制作の工程をコマンド1本でセットアップできるパイプラインツールです。YOLOとCCIPによる参照画像ベースのキャラ照合が特徴で、WebUIからのデータセット調整も備えています。

GitHubリポジトリは2026年5月1日の公開後も活発にコミットが続いており、実用フェーズのプロジェクトとして機能しています。