AIと音声で雑談できるLive2Dキャラクターが、自分のPCだけで動く時代になりました。クラウドAPI不要、完全オフライン対応のオープンソースプロジェクトが注目を集めています。

この記事でわかること

  • Open-LLM-VTuberとは何か、既存のAIチャットボットと何が違うのか
  • 対応するLLM・音声認識・音声合成エンジンの全体像
  • インストールから起動までの手順
  • デスクトップペットモードやビジョン機能の活用方法

AI VTuberをローカルで再現するOSS

Open-LLM-VTuberは、LLMとLive2Dアバターを組み合わせた音声対話型AIコンパニオンです。Python製で、Windows・macOS・Linuxのすべてに対応しています。GitHubスターは7,300を超え、現在v2.0のフルリライトが進行中です。

プロジェクトの原点は、クローズドソースのAI VTuber「Neuro-sama」をオープンソースで再現するという試みでした。単なるチャットボットではなく、Live2Dの表情変化、リアルタイム音声会話、カメラによる視覚認識まで備えた「対話型AIキャラクター」を、個人のPC上で完結させることを目指しています。

テキストチャットでは得られない体験

AIとのやり取りの多くは、テキスト入力とテキスト出力です。Open-LLM-VTuberはここに音声と視覚を加えます。

マイクに話しかけると、AIが音声認識で内容を理解し、LLMが応答を生成し、TTSエンジンが声に変換します。画面上のLive2Dキャラクターは会話の内容に応じて表情を変え、AIの「感情」を視覚的に表現します。ヘッドフォンがなくても、AIが自身の出力音声を拾わないエコーキャンセル機能を内蔵しているため、スピーカーからの出力でも会話が成立します。

会話中にAIの発話を遮って割り込む「音声インタラプション」にも対応しており、人間同士の会話に近い自然なやり取りが実現します。

対応エンジンの幅広さ

Open-LLM-VTuberの強みは、各コンポーネントを自由に組み替えられるモジュール設計です。

LLMはOllama、OpenAI互換API、Gemini、Claude、Mistral、DeepSeekなど主要なプロバイダーに対応しています。ローカルで動かすならOllamaが最も手軽です。クラウドAPIを使えば、GPUのないマシンでも利用できます。

音声認識(ASR)はsherpa-onnx、Faster-Whisper、Whisper.cpp、Groq Whisper APIなど複数から選べます。テキスト読み上げ(TTS)もEdge TTS、CosyVoice、GPTSoVITS、Fish Audioなど選択肢が豊富です。Edge TTSはMicrosoftのクラウドTTSを無料で利用でき、導入の手間が最も少ない選択肢です。

各コンポーネントはconf.yamlファイルで切り替えるだけです。コードの修正は不要で、ローカル実行とAPI利用を混在させることもできます。たとえば、LLMはOllamaでローカル実行し、TTSはEdge TTSでクラウドを使う、という組み合わせが可能です。

セットアップの流れ

公式ドキュメント(https://docs.llmvtuber.com/docs/quick-start/)に沿って進めます。

前提として、Git、FFmpeg、Python 3.10以上が必要です。NVIDIA GPUを使う場合はCUDA Toolkitも準備します。依存管理にはuvが推奨されていますが、pipでも動作します。

リポジトリをクローンしたら、uv syncで依存パッケージをインストールし、Ollamaで使いたいモデルをダウンロードします。conf.yamlでLLM・ASR・TTSの設定を書き、uv run run_server.pyでサーバーを起動します。ブラウザでlocalhostにアクセスすれば、Live2Dキャラクターが表示されます。

ブラウザはChromeが推奨です。Edge、Safariでは音声周りで問題が報告されています。

デスクトップアプリとして使いたい場合は、Electronベースのクライアントが公式リリースページからダウンロードできます。Windows用のexeファイルとmacOS用のdmgファイルが提供されています。

デスクトップペットとして常駐させる

デスクトップクライアントには「ペットモード」が搭載されています。背景が透明になり、Live2Dキャラクターだけが画面上に浮かぶ形で表示されます。常に最前面に表示され、マウスのクリックはキャラクター以外の部分を透過するため、通常の作業を妨げません。

ドラッグで好きな位置に移動できるため、画面の隅に置いて作業中のBGMのように使うこともできます。キャラクターをクリックやドラッグするとタッチフィードバックが返る仕組みもあり、インタラクション性が高い設計です。

カメラとスクリーン認識

v1.0で追加されたビジョン機能により、AIがカメラ映像や画面の内容を認識できるようになりました。カメラを有効にするとAIがユーザーの姿を認識し、画面共有モードではデスクトップの内容を把握した上で応答を返します。

たとえば、コードエディタを開いた状態で「これ何のコード?」と聞けば、画面の内容を踏まえた回答が得られます。ビジョン対応のLLM(GPT-4o、Gemini、Claude 3.5 Sonnetなど)を使う必要がありますが、対話の幅が大きく広がります。

キャラクターの外見と性格を自分で決める

Live2Dモデルは自作のものやBOOTHで配布されているモデルに差し替えられます。conf.yamlでモデルファイルのパスを指定するだけです。

性格設定はシステムプロンプトで制御します。「ツンデレな猫耳メイド」「冷静な科学者」「関西弁の友人」など、プロンプトの書き方次第でキャラクターの振る舞いを細かく調整できます。GPTSoVITSやCosyVoiceを使えばボイスクローニングも可能で、好きな声をAIに与えられます。

現時点の制約

長期記憶機能はv1.0のリライト時に一時的に外されています。v2.0で再実装される予定ですが、現時点ではセッションをまたいだ記憶の引き継ぎはチャットログの保存に限られます。

ローカル実行時の応答速度はマシンスペックに依存します。7BクラスのモデルであればミドルスペックのGPUで実用的な速度が出ますが、70B以上のモデルはクラウドAPIの利用が現実的です。

プロジェクト全体がv2.0に向けたフルリライトの計画段階にあるため、v1系への新機能追加は控えられています。バグ修正は継続中です。

まとめ

AI VTuberやAIコンパニオンの分野は、商用サービスが先行してきました。Open-LLM-VTuberは、LLM・ASR・TTSのすべてをローカルで動かし、Live2Dキャラクターと組み合わせるという構成を、個人が無料で構築できる形にしたプロジェクトです。会話データが外部に送信されないプライバシー面の利点もあります。VTuber配信、個人用AIコンパニオン、教育用の対話キャラクターなど、用途を選ばず使える土台として、今後の発展に注目です。