AIインフラ学習を一本化するGitHub学習マップ

AIインフラは、論文・ブログ・動画・OSSが同時に増え、ブラウザのタブだけでは学習順序が崩れやすい領域です。2026年6月、AIエンジニアのDan Kornas氏がXで紹介した「AI-Infra-from-Zero-to-Hero」は、機械学習基盤（ML infrastructure）、大規模言語モデル（LLM）システム、生成AI（GenAI）システム向けの学習リソースをカテゴリ別に整理したオープンソースのキュレーションリポジトリです。

この記事では、投稿の背景とリポジトリの構成、学習の進め方、類似リストとの違いを整理します。

この記事でわかること

Dan Kornas氏の投稿が指すリポジトリの正体と目的
ML/DL基盤・LLM基盤・ドメイン別インフラの章立て
論文・書籍・講義・動画がどう配置されているか
似たAwesomeリストとの使い分け

タブ学習が破綻しやすい理由

AIインフラは、データ処理、分散学習、推論最適化、モデル配信、監視、コスト管理まで横断するため、キーワード検索だけでは「今読むべき順序」が見えにくくなります。Dan Kornas氏は2026年6月2日の投稿で「AI infra is too broad to learn from random tabs（AIインフラはランダムなタブから学ぶには広すぎる）」と述べ、論文とリソースをグループ化して学習経路を整える目的で「AI-Infra-from-Zero-to-Hero」を紹介しています（元投稿）。

投稿が指すのは、GitHub上の HuaizhengZhang/AI-Infra-from-Zero-to-Hero です。リポジトリ説明では「System for Machine Learning」「LLM」「GenAI」を扱うAwesomeリストと明記され、2026年6月時点でスター数は約4,080、フォーク数は約393、ライセンスはMITです。2019年作成で継続更新されており、READMEでは旧名「Awesome-System-for-Machine-Learning」からの改名・統合の痕跡も残っています。

GitHub - HuaizhengZhang/AI-Infra-from-Zero-to-Hero: 🚀 Awesome System for Machine Learning ⚡️ AI System Papers and Industry Practice. ⚡️ System for Machine Learning, LLM (Large Language Model), GenAI (Generative AI). 🍻 OSDI, NSDI, SIGCOMM, SoCC, MLSys, etc. 🗃️ Llama3, Mistral, etc. 🧑‍💻 Video Tutorials.

🚀 Awesome System for Machine Learning ⚡️ AI System Papers and Industry Practice. ⚡️ System for Machine Learning, LLM (La…

GitHub

リポジトリが提供する学習マップの全体像

READMEでは「AI System School」と名付けられ、研究論文と業界実践をカテゴリ順に並べる設計です。中心となるのは次の3層です。

ML / DLインフラでは、データ処理、学習システム（Training System）、推論システム（Inference System）、機械学習インフラ（Machine Learning Infrastructure）の4章に分かれ、それぞれ独立したMarkdown（data_processing.md など）へリンクします。

LLMインフラでは、LLM学習（llm_training.md）とLLM配信（llm_serving.md）を分離しています。配信側にはOSDI 2024掲載のDistServe（prefillとdecodingの分離）、Sarathi-Serve（スループットとレイテンシのトレードオフ）、ServerlessLLMなど、LLM推論の最新論文リンクが年次で整理されています。

ドメイン特化インフラでは、動画システム、AutoML、エッジAI、GNN、連合学習、深層強化学習など、汎用ML基盤の外側にあるシステム研究も拾い上げています。

この章立てにより、「モデルを作る」より「モデルを動かすシステム」を学ぶ読者が、LLM時代の配信・学習に直行しやすくなっています。

論文・講義・動画が揃う理由

カテゴリ別リストのほか、README下部には横断リソースがまとまっています。

調査・ホワイトペーパーでは、「Path to System for AI」として paper/mlsys-whitepaper.pdf が必読扱いで置かれ、FacebookのMLインフラ論文（HPCA 2018）、Hidden Technical Debt in Machine Learning Systems（NIPS 2015）、A Berkeley View of Systems Challenges for AI など、システム視点の定番文献がSurveyセクションに集約されています。

書籍には、Hennessy & Pattersonのコンピュータアーキテクチャ、Manning社のDistributed Machine Learning Patterns、Kubernetes in Action、mlsysbook.ai のMachine Learning Systems など、実装と設計の両方を押さえる書籍が並びます。

講義では、UC BerkeleyのCS294（AI For Systems and Systems For AI）、Washington大学のCSE 599W、Stanford CS329S（Machine Learning Systems Design）など、大学公式のシラバスとGitHub教材へのリンクが「Strong Recommendation」付きで載っています。

動画には、Jeff DeanやDavid Pattersonの講演、NetflixのMLインフラ基調、SysML・ScaledMLのプレイリスト、リポジトリ自身のYouTube・bilibiliチュートリアルへの導線があります。2025年以降は companion サイト「Lets Go AI」（letsgoai.pro）の準備もREADMEで告知されています。

学会として、OSDI、SOSP、SIGCOMM、NSDI、MLSys、ATC、Eurosys、Middleware、SoCC、TinyMLが一覧され、どの会議がシステム×MLの主戦場かを示す索引になっています。

メンテナンス体制は、チームによる維持とテンプレート付きPull Request歓迎が明記されており、単なる個人ブックマークではなくコミュニティ更新を想定したリストです。

学習の進め方（実務者向け）

初めて触れる場合は、READMEの図解（AI system全体像）とホワイトペーパーを読み、自分の役割に近い章へ入るのが効率的です。アプリケーション開発者なら推論・配信（Inference / LLM Serving）、MLOps担当ならデータ処理とMLインフラ、研究志向ならTraining Systemと学会論文リスト、という分岐が可能です。

LLM配信を深掘りするなら llm_serving.md からOSDIなど頂会の直近論文へ進み、KubernetesやRay、Colossal-AIといった実装ブログ（READMEのBlogセクション）と突き合わせると、論文とOSSの対応が見えやすくなります。

動画学習を好む場合は、リポジトリ付属のチュートリアル（YouTube・bilibili）を入口にし、関連講義（UC Berkeley CS294など）へ広げる導線が用意されています。英語資料が中心のため、中国語の講義ノートやbilibiliコンテンツは補助輪として機能します。

類似リソースとの違い

AIインフラ学習のAwesome系は複数存在し、目的が重なります。使い分けの目安は次のとおりです。

リソース	主な焦点
AI-Infra-from-Zero-to-Hero	学術論文＋講義＋書籍による「システム for ML/LLM/GenAI」の地図
EthicalML/awesome-production-machine-learning	本番運用向けOSSツールのカタログ（デプロイ・監視・スケール）
pacoxu/AI-Infra	Kubernetes／クラウドネイティブ前提の2026年版ランドスケープと学習パス
ai-infra-curriculum（GitHub Organization）	職位別のハンズオンカリキュラム（ジュニア〜アーキテクト）

Dan Kornas氏自身も別途「AI Learning Hub」など学習ロードマップ系リポジトリを公開していますが、今回の投稿が直接指すのは HuaizhengZhang氏のリストです。本番ツール選定が目的なら awesome-production-machine-learning を、論文と講義で体系を掴むなら AI-Infra-from-Zero-to-Hero を、コード演習中心なら ai-infra-curriculum 系を併用する構成が現実的です。

押さえておきたい注意点

このリポジトリは「実行環境を一発で構築するフレームワーク」ではなく、リンク集です。掲載論文の再現には別途コードリポジトリやクラスタ環境が必要です。また、ブログやサードパーティ記事も含まれるため、公式論文・公式ドキュメントを優先して読む運用が安全です。スター数は人気の目安であり、掲載順が技術的優劣を意味しません。

それでも、AIインフラをタブの乱立から抜け出すには、カテゴリと学会・講義が一枚の地図になっている点に価値があります。Dan Kornas氏の投稿はその入口を短く示したもので、エンジニアが次に開くべき章（データ処理か、LLM配信か、ドメイン特化か）を自分で選べる状態にすることが、このリポジトリの本質です。