資料を読む時間が取れない。でも内容は把握したい——NotebookLMのAudio Overviewは、この課題に強い回答でした。一方、データはGoogleのクラウドに載り、使えるAIもGemini系に限定されます。Open Notebookは、この仕組みをオープンソースで再現し、自前サーバーで動かせる代替ツールです。
この記事では、Open Notebookの概要、NotebookLMとの違い、ポッドキャスト生成やRAGチャットの活用法、ローカルLLM・TTS構成の考え方を整理します。
この記事でわかること
- Open NotebookがNotebookLMのどの機能を代替できるか
- ポッドキャスト生成のカスタマイズとローカル運用のメリット
- Dockerでの導入手順とAIプロバイダーの設定方法
- NotebookLMにない強みと、逆に足りない点
NotebookLMの強みと、自前運用を選ぶ理由
NotebookLMは、PDFやWebページ、YouTubeなどをノートブックに集め、その内容だけを根拠にAIと会話できる調査ツールです。Audio Overviewは2人のAIホストが資料を会話形式で解説し、移動中の学習に向いています。Google公式ヘルプでは、無料プランのAudio Overviewは1日3回までと定められています。
課題は運用の自由度です。モデルはGoogle製に依存し、生成回数にも日次上限があります。機密資料を社外クラウドに載せたくない場合や、OllamaなどローカルLLMを使いたい場合、NotebookLM単体では要件を満たしにくいです。Open Notebookは、このギャップを埋めるために設計されたOSSです。
Open Notebookとは
開発者Luis Novo氏によるMITライセンスのプロジェクトで、GitHub上のlfnovo/open-notebookとして公開されています。公式サイトでは「self-hosted AI-powered knowledge management system」と位置づけられ、Docker Composeでの導入が推奨されています。
バックエンドはSurrealDB、フロントエンドはNext.js/React、APIはFastAPIで構成されています。Esperantoライブラリ経由で18以上のAIプロバイダーに対応し、OpenAI、Anthropic、Google、Ollama、LM Studio、OpenRouterなどを組み合わせられます。最小要件はRAM 4GB、ディスク空き2GB、Docker Engineです。
主な機能と使いどころ
RAGチャットと検索
RAG(Retrieval-Augmented Generation)は、登録した資料から関連箇所を検索し、その文脈だけをAIに渡して回答させる方式です。Open Notebookはフルテキスト検索とベクトル検索の両方に対応し、ノートブック単位で資料を整理したうえでチャットできます。論文や技術ドキュメントの要約、特定条件での引用付き回答など、NotebookLMと同系統の調査フローを再現できます。
コンテンツ変換(Transformations)
資料を要約・分析・整形する処理を、ビルトインまたはカスタムの変換アクションとして実行できます。システムプロンプトを自分で握れる点が、クラウド製品との大きな差です。研究テーマや社内用語に合わせた出力形式を固定しやすくなります。
ポッドキャスト生成
NotebookLMのAudio Overviewに相当する機能です。Open Notebookは1〜4人の話者プロファイルを設定でき、各話者の性格・口調・背景ストーリーを細かく指定できます。Episode Profileでセグメント数、概要生成用LLM、全体のトーンも調整可能です。
MSNの技術記事では、RTX 3080 Ti上でQwen3系モデルをllama.cpp経由で動かし、TTSにSpeachesコンテナとKokoroモデルを使う完全ローカル構成の例が紹介されています(参考)。同記事によると、3話者・約15分のポッドキャストを約20分で生成できたとのことです。クラウド課金や日次上限を気にせず、何度でも作り直せるのが自前運用の利点です。
導入手順の概要
公式のクイックスタートは次の流れです。
docker-compose.ymlを取得し、暗号化キーOPEN_NOTEBOOK_ENCRYPTION_KEYを任意の文字列に変更するdocker compose up -dでSurrealDBとOpen Notebookを起動する- ブラウザで
http://localhost:8502を開く - Settings → API Keysからプロバイダーを登録し、Test Connection → Discover Models → Register Modelsの順でモデルを有効化する
APIキー不要で試す場合は、リポジトリ付属のOllama連携用compose例を使い、ローカル推論だけで動かす構成も選べます。ポッドキャスト生成では、話者プロファイルにTTSモデルと声を正しく紐づけないと、エラー表示なく失敗するケースがあるとMSN記事で報告されています。初期プロファイルは必ず自分の環境用に編集してください。
NotebookLMとの比較
| 観点 | Open Notebook | NotebookLM |
|---|---|---|
| ホスティング | 自前(Docker等) | Googleクラウドのみ |
| AIモデル | 18以上のプロバイダー、ローカル可 | Googleモデル中心 |
| ポッドキャスト話者 | 1〜4人、プロファイル自由 | 基本2人、形式はDeep Dive等から選択 |
| Audio Overview上限 | 自前運用なら実質無制限 | 無料は1日3回(公式ヘルプ) |
| API | REST APIあり | なし |
| スライド・動画生成 | 非対応 | Studio機能で対応 |
MakeUseOfのレビューでは、Open Notebookはスライドデック、サマリー動画、マインドマップ生成には対応せず、画像・動画モデルも使えない点が挙げられています(参考)。資料を読み聞きしながら深掘りする用途なら十分戦えますが、NotebookLMのマルチメディア出力まで一式そろえる代替ではありません。
音声品質だけを見ると、初期設定のOpen NotebookはNotebookLMの自然な会話より劣る場合があります。代わりに、話者構成・脚本・使用モデルを全部選べる自由度が返ってきます。XDA Developersの検証でも、ElevenLabsをTTSに使えば品質は上がる一方、モデル選定とプロファイル調整の手間は増えると述べられています(参考)。
ローカルLLM・TTS構成のヒント
完全オフラインに近づける典型的な構成は次のとおりです。
- 推論: Ollama、またはllama.cppの
llama-serverでQwen3やGemmaなどをホスト - TTS: SpeachesコンテナでKokoroなどのモデルを実行
- 音声認識: 動画・音声ソース取り込み時にfaster-whisperを併用
LLMはアウトライン生成と脚本作成、TTSは読み上げと分担します。GPUメモリが足りない場合は、一部レイヤーをCPUにオフロードする運用も現実的です。クラウドAPIを併用する場合は、長文処理にGemini、ポッドキャスト音声にElevenLabsといった使い分けが公式READMEのプロバイダー表にも沿っています。
向いている人・向いていない人
向いている人
- 研究資料や社内文書を自社ネットワーク内に閉じたい
- ローカルLLMや好みのAPIを組み合わせたい
- ポッドキャストの話者数・トーンを細かく制御したい
- REST APIで調査フローを自動化したい
向いていない人
- インストールやプロファイル調整をしたくない
- スライド・インフォグラフィック・動画概要まで一括生成したい
- Google DocsやGitHubと直接連携したい(XDAの指摘どおり、現状はPDFやURL中心)
Open Notebookは「NotebookLMの思想を、自分のルールで動かす」ための基盤です。ポッドキャスト生成、RAGチャット、変換処理の3つを押さえれば、資料のインプットからアウトプットまでを一気通貫で回せます。まずはDockerで立ち上げ、手元のPDF1冊とOllamaだけで試し、必要に応じてTTSと話者プロファイルを足していく進め方が現実的です。