Talkie-1930 1931年より前の文献だけで学習した13BビンテージLLM

「2026年の世界はどうなっている？」と聞くと、蒸気船と鉄道と1ペニー小説の未来を語り出すLLMが公開されました。

Talkie-1930は、1931年より前に書かれた英語テキストだけで学習した13Bパラメータの言語モデルです。GPT初期論文の筆頭著者であるAlec Radfordらが開発し、Apache 2.0ライセンスのオープンソースとして公開されています。

この記事でわかること

Talkie-1930の設計と学習データの特徴
1930年の知識しか持たないLLMが現代をどう予測するか
ビンテージLLMが研究にもたらす価値
インストール方法と必要スペック

なぜ「1930年以前」なのか

https://github.com/talkie-lm/talkie

Talkieの学習データは、書籍・新聞・科学雑誌・特許・判例法など、1930年12月31日以前に出版された260Bトークンの英語テキストです。このカットオフは米国でパブリックドメインに入る時期と一致しており、著作権の問題を回避しつつ大規模なコーパスを構築できます。

すべてのテキストは物理的な文書からの転写が必要です。デジタル出版が存在しない時代のデータだけを扱うため、OCR（光学文字認識）の品質が学習効率に直結します。開発チームの実験では、通常のOCRシステムで転写したテキストは、人間が転写したものと比べて学習効率が30%にとどまりました。正規表現によるクリーニングで70%まで回復しますが、まだ差があります。この課題に対応するため、チームは歴史文書専用のOCRシステムを開発中です。

第二次世界大戦は起きないと答える

Talkieに「第二次世界大戦は起きるか」と聞くと、否定します。1914年〜1918年の狂気は過ぎ去ったと判断し、各国は平和的な活動に向かっていると述べます。一方で「くすぶる敵意」や「可燃性の材料」がヨーロッパに残っているとも警告しており、完全に楽観しているわけではありません。

開発チームはNew York Timesの「On This Day」から約5,000件の歴史的出来事の記述をモデルに読ませ、各出来事に対する「驚き度」を測定しました。1930年のカットオフ以降、驚き度は急上昇し、1950〜60年代でピークに達した後、横ばいになります。モデルが知らない時代の出来事ほど予測が難しいことを、定量的に示した結果です。

デジタルコンピュータを知らないのにPythonを書く

興味深いのは、デジタルコンピュータの知識を一切持たないTalkieが、少数のPythonコード例を与えられると簡単なプログラムを書ける点です。HumanEvalベンチマークでは現代のモデルに大きく劣りますが、スケールアップに伴い着実にスコアが改善しています。

成功例のひとつは、回転暗号の符号化関数を見せたところ、加算を減算に置き換えて復号化関数を正しく実装したケースです。わずか1文字の編集ですが、逆関数の概念を理解していることを示唆します。

データ汚染のないLLMという研究価値

ビンテージLLMの最大の研究上の利点は、設計上データ汚染がないことです。現代のLLMはすべて、直接的または間接的にWebデータで学習しています。ベンチマークの問題文やその解答がWebに掲載されているため、モデルが「解き方を暗記しているだけなのか、本当に理解しているのか」を切り分けることが困難です。

Talkieは1930年以前のテキストしか見ていないため、現代のベンチマークに対する汚染がゼロです。モデルが正解を出した場合、それは汎化能力によるものだと判断できます。LLMの能力が「言語や文化の普遍的な性質」に由来するのか、「Webという特定のデータセット」に由来するのかを解明する手がかりになります。

エチケットマニュアルで会話を学ぶ

ベースモデルを会話可能にするポストトレーニングにも独自の工夫があります。現代のチャットデータを使えば時代錯誤な知識が混入するため、開発チームは19世紀〜20世紀初頭のエチケットマニュアル、手紙の書き方ガイド、料理本、百科事典、寓話集など、構造が整った歴史文書から指示応答ペアを生成しました。

その後、Claude Sonnet 4.6を評価者として強化学習（オンラインDPO）を実施し、指示追従能力を向上させています。評価者による指示追従スコアは5段階で2.0から3.4に改善しました。ただし、AIによる強化学習は不可避的にモデルの振る舞いに現代的な影響を与えるため、将来的にはビンテージモデル自体を評価者に使う完全自己完結型のパイプラインを目指しています。

モデルの種類とインストール

Talkieは以下のモデルを提供しています。

talkie-1930-13b-base: 1930年以前のテキストで学習したベースモデル
talkie-1930-13b-it: 指示チューニング済みの会話モデル
talkie-web-13b-base: 同じアーキテクチャでFineWeb（現代のWebデータ）で学習した比較用モデル

3つ目の「現代ツイン」は、ビンテージモデルとの性能差がデータの時代性によるものなのか、それ以外の要因なのかを検証するために用意されています。

動作にはPython 3.11以上、PyTorch 2.1以上、CUDA対応GPUで28GB以上のVRAMが必要です。インストールはリポジトリをクローンしてuv syncを実行するだけで完了します。CLIからuv run talkie chat --model talkie-1930-13b-itで対話を開始できます。

今後の展開

開発チームはGPT-3レベルのモデルを2026年夏にリリースする計画です。コーパスは1兆トークン以上に拡大可能と見積もっており、GPT-3.5相当のモデル構築も視野に入っています。英語以外への多言語展開も優先事項に挙げられています。

共同開発者のAlec Radfordは、2018年のGPT論文の筆頭著者であり、OpenAIでWhisperやDALL-Eにも携わった人物です。2024年12月にOpenAIを退社し、元OpenAI CTOのMira MuratiによるThinking Machines Labにアドバイザーとして参加しています。

「100年前の知識だけで学習したAIは、未来をどこまで予測できるか」という問いに、スケーリングで挑むプロジェクトです。ビンテージLLMという新しいカテゴリが、LLMの本質的な理解をどこまで深められるか注目です。