AIインフラは、論文・ブログ・動画・OSSが同時に増え、ブラウザのタブだけでは学習順序が崩れやすい領域です。2026年6月、AIエンジニアのDan Kornas氏がXで紹介した「AI-Infra-from-Zero-to-Hero」は、機械学習基盤(ML infrastructure)、大規模言語モデル(LLM)システム、生成AI(GenAI)システム向けの学習リソースをカテゴリ別に整理したオープンソースのキュレーションリポジトリです。
この記事では、投稿の背景とリポジトリの構成、学習の進め方、類似リストとの違いを整理します。
この記事でわかること
- Dan Kornas氏の投稿が指すリポジトリの正体と目的
- ML/DL基盤・LLM基盤・ドメイン別インフラの章立て
- 論文・書籍・講義・動画がどう配置されているか
- 似たAwesomeリストとの使い分け
タブ学習が破綻しやすい理由
AIインフラは、データ処理、分散学習、推論最適化、モデル配信、監視、コスト管理まで横断するため、キーワード検索だけでは「今読むべき順序」が見えにくくなります。Dan Kornas氏は2026年6月2日の投稿で「AI infra is too broad to learn from random tabs(AIインフラはランダムなタブから学ぶには広すぎる)」と述べ、論文とリソースをグループ化して学習経路を整える目的で「AI-Infra-from-Zero-to-Hero」を紹介しています(元投稿)。
投稿が指すのは、GitHub上の HuaizhengZhang/AI-Infra-from-Zero-to-Hero です。リポジトリ説明では「System for Machine Learning」「LLM」「GenAI」を扱うAwesomeリストと明記され、2026年6月時点でスター数は約4,080、フォーク数は約393、ライセンスはMITです。2019年作成で継続更新されており、READMEでは旧名「Awesome-System-for-Machine-Learning」からの改名・統合の痕跡も残っています。
リポジトリが提供する学習マップの全体像
READMEでは「AI System School」と名付けられ、研究論文と業界実践をカテゴリ順に並べる設計です。中心となるのは次の3層です。
ML / DLインフラでは、データ処理、学習システム(Training System)、推論システム(Inference System)、機械学習インフラ(Machine Learning Infrastructure)の4章に分かれ、それぞれ独立したMarkdown(data_processing.md など)へリンクします。
LLMインフラでは、LLM学習(llm_training.md)とLLM配信(llm_serving.md)を分離しています。配信側にはOSDI 2024掲載のDistServe(prefillとdecodingの分離)、Sarathi-Serve(スループットとレイテンシのトレードオフ)、ServerlessLLMなど、LLM推論の最新論文リンクが年次で整理されています。
ドメイン特化インフラでは、動画システム、AutoML、エッジAI、GNN、連合学習、深層強化学習など、汎用ML基盤の外側にあるシステム研究も拾い上げています。
この章立てにより、「モデルを作る」より「モデルを動かすシステム」を学ぶ読者が、LLM時代の配信・学習に直行しやすくなっています。
論文・講義・動画が揃う理由
カテゴリ別リストのほか、README下部には横断リソースがまとまっています。
調査・ホワイトペーパーでは、「Path to System for AI」として paper/mlsys-whitepaper.pdf が必読扱いで置かれ、FacebookのMLインフラ論文(HPCA 2018)、Hidden Technical Debt in Machine Learning Systems(NIPS 2015)、A Berkeley View of Systems Challenges for AI など、システム視点の定番文献がSurveyセクションに集約されています。
書籍には、Hennessy & Pattersonのコンピュータアーキテクチャ、Manning社のDistributed Machine Learning Patterns、Kubernetes in Action、mlsysbook.ai のMachine Learning Systems など、実装と設計の両方を押さえる書籍が並びます。
講義では、UC BerkeleyのCS294(AI For Systems and Systems For AI)、Washington大学のCSE 599W、Stanford CS329S(Machine Learning Systems Design)など、大学公式のシラバスとGitHub教材へのリンクが「Strong Recommendation」付きで載っています。
動画には、Jeff DeanやDavid Pattersonの講演、NetflixのMLインフラ基調、SysML・ScaledMLのプレイリスト、リポジトリ自身のYouTube・bilibiliチュートリアルへの導線があります。2025年以降は companion サイト「Lets Go AI」(letsgoai.pro)の準備もREADMEで告知されています。
学会として、OSDI、SOSP、SIGCOMM、NSDI、MLSys、ATC、Eurosys、Middleware、SoCC、TinyMLが一覧され、どの会議がシステム×MLの主戦場かを示す索引になっています。
メンテナンス体制は、チームによる維持とテンプレート付きPull Request歓迎が明記されており、単なる個人ブックマークではなくコミュニティ更新を想定したリストです。
学習の進め方(実務者向け)
初めて触れる場合は、READMEの図解(AI system全体像)とホワイトペーパーを読み、自分の役割に近い章へ入るのが効率的です。アプリケーション開発者なら推論・配信(Inference / LLM Serving)、MLOps担当ならデータ処理とMLインフラ、研究志向ならTraining Systemと学会論文リスト、という分岐が可能です。
LLM配信を深掘りするなら llm_serving.md からOSDIなど頂会の直近論文へ進み、KubernetesやRay、Colossal-AIといった実装ブログ(READMEのBlogセクション)と突き合わせると、論文とOSSの対応が見えやすくなります。
動画学習を好む場合は、リポジトリ付属のチュートリアル(YouTube・bilibili)を入口にし、関連講義(UC Berkeley CS294など)へ広げる導線が用意されています。英語資料が中心のため、中国語の講義ノートやbilibiliコンテンツは補助輪として機能します。
類似リソースとの違い
AIインフラ学習のAwesome系は複数存在し、目的が重なります。使い分けの目安は次のとおりです。
| リソース | 主な焦点 |
|---|---|
| AI-Infra-from-Zero-to-Hero | 学術論文+講義+書籍による「システム for ML/LLM/GenAI」の地図 |
| EthicalML/awesome-production-machine-learning | 本番運用向けOSSツールのカタログ(デプロイ・監視・スケール) |
| pacoxu/AI-Infra | Kubernetes/クラウドネイティブ前提の2026年版ランドスケープと学習パス |
| ai-infra-curriculum(GitHub Organization) | 職位別のハンズオンカリキュラム(ジュニア〜アーキテクト) |
Dan Kornas氏自身も別途「AI Learning Hub」など学習ロードマップ系リポジトリを公開していますが、今回の投稿が直接指すのは HuaizhengZhang氏のリストです。本番ツール選定が目的なら awesome-production-machine-learning を、論文と講義で体系を掴むなら AI-Infra-from-Zero-to-Hero を、コード演習中心なら ai-infra-curriculum 系を併用する構成が現実的です。
押さえておきたい注意点
このリポジトリは「実行環境を一発で構築するフレームワーク」ではなく、リンク集です。掲載論文の再現には別途コードリポジトリやクラスタ環境が必要です。また、ブログやサードパーティ記事も含まれるため、公式論文・公式ドキュメントを優先して読む運用が安全です。スター数は人気の目安であり、掲載順が技術的優劣を意味しません。
それでも、AIインフラをタブの乱立から抜け出すには、カテゴリと学会・講義が一枚の地図になっている点に価値があります。Dan Kornas氏の投稿はその入口を短く示したもので、エンジニアが次に開くべき章(データ処理か、LLM配信か、ドメイン特化か)を自分で選べる状態にすることが、このリポジトリの本質です。