LLMの仕組みを体系的に学べる無料動画が、AI開発者の間で改めて注目を集めています。

Andrej Karpathyが公開したYouTube動画「Deep Dive into LLMs like ChatGPT」は、ChatGPTをはじめとする大規模言語モデルの全体像を3時間31分かけて解説したものです。OpenAI共同創業者でTesla Autopilotを設計したKarpathy氏が、一般向けに分かりやすく説明しています。

この記事でわかること:

  • ChatGPTが内部でどのように動作しているか
  • トークナイゼーション・アテンション・RLHFの意味
  • ハルシネーションが起きる理由と対策
  • DeepSeekとAlphaGoが示した強化学習の可能性

動画の概要

https://www.youtube.com/watch?v=7xTGNNLPyMI

この動画はLLMを初めて深く学ぶ人から、実装経験はあるがモデルの内側を知りたいエンジニアまで幅広く対応できる内容です。前提知識はPythonの基礎と高校レベルの数学(微分・正規分布の概念)があれば十分とされています。

事前学習:インターネットから知識を圧縮する

LLMの開発はインターネット全体のテキストをクロールするところから始まります。しかし生のデータはノイズが多く、そのままでは学習に使えません。Karpathy氏はFineWebを例に挙げ、12億ページ以上のデータがどのようにフィルタリングされるかを説明しています。

その後、テキストはトークンに変換されます。「Byte Pair Encoding(BPE)」という手法で文字列を数値IDに落とし込む処理で、GPT-4では100,277種類のトークンが使われています。なぜトークン数がこれほど多いのか、なぜトークナイゼーションがLLMの奇妙な振る舞いの原因になるのか、動画では具体例を交えて詳しく解説されています。

ニューラルネットワークの基本構造

テキストがトークン化されると、モデルは「次のトークンを予測する」というタスクを繰り返し学習します。コンテキストウィンドウ(GPT-4では最大12.8万トークン)と呼ばれる入力範囲が長いほど、より多くの文脈を考慮できますが、計算コストも高くなります。

Karpathy氏はGPT-2の再現実験を例に挙げ、2019年には約4,000万円かかっていた学習コストが、現在では技術の進化によって約7万円まで削減できることも紹介しています。

ハルシネーションが起きる理由

LLMが誤情報を自信満々に回答してしまう「ハルシネーション」は、事後学習(ポストトレーニング)の仕組みに起因します。モデルは「必ず答えを返す」よう訓練されているため、知らないことに対しても推測で埋めようとします。

動画ではMetaのLlama 3の研究を例に、この問題への対処法が説明されています。具体的には、モデル自身の知識の限界を認識させるための訓練データを追加する手法や、知識がない場合にはツール(検索エンジンなど)を呼び出すよう促す設計が紹介されています。

Karpathy氏はモデルの「記憶」を2種類に分類しています。学習パラメータに蓄積された「あいまいな長期記憶」と、会話の文脈(コンテキストウィンドウ)として機能する「作業記憶」です。RAG(検索拡張生成)が効果的な理由も、この構造から説明されています。

強化学習とRLHF

事後学習の中でも特に重要なのが強化学習(Reinforcement Learning)です。モデルは同一の問題に対して複数の解答を生成し、正解にたどり着いた回答だけを学習に使います。このプロセスには人間が介在せず、モデルが自力で解法を発見します。

動画ではDeepSeek-R1の論文を引用し、この強化学習によってモデルが「自分で考える」能力を獲得することを解説しています。また囲碁AIのAlphaGoが生み出した「手37」(人間が1万回に1回しか打たないとされる手)を例に、RLが人間の知識を超える可能性も示されています。

料理のコツや文章の面白さなど、客観的な評価が難しい領域では人間の判断が必要になります。この問題を解決するのがRLHF(人間フィードバックによる強化学習)です。人間の評価を模倣した「リワードモデル」を使い、大規模にモデルの質を向上させます。ただし、リワードモデルも不完全なため、学習の反復回数が増えると予期しない方向に最適化されるリスクもあります。

AIエージェント開発への応用

動画の後半では、LLMがAIエージェントへと発展する方向性が示されています。テキスト以外の画像・音声・動画を扱うマルチモーダル、長期記憶と推論を持つエージェント型モデル、ソフトウェアを実際に操作するコンピュータ使用AIなど、現在進行形で開発が進む技術領域が紹介されています。

LLMの基本構造を理解しておくことは、これらの応用技術を正しく使いこなすうえで重要な前提知識になります。

視聴のすすめ

動画は全編無料で公開されており、YouTubeの自動字幕機能を使えば英語が苦手な方でも内容を追えます。3時間31分と長尺ですが、章立て構成になっているため、気になるトピックから選んで視聴することも可能です。

Karpathy氏が手書きした説明図(Excalidrawファイル)も公開されており、視覚的にLLMの全体像を把握するのに役立ちます。AIエージェントを自分で作りたい、あるいはLLMの振る舞いを根拠を持って理解したいという方に、ひと通り視聴する価値があります。