10万GPUを2段のEthernetスイッチだけでつなぎ、ケーブルが切れてもトレーニングが止まらない——OpenAIがそのネットワーク技術を公開した。
2026年5月5日、OpenAIはAMD・Broadcom・Intel・Microsoft・NVIDIAと共同で開発した新しいネットワークプロトコル「MRC(Multipath Reliable Connection)」を、Open Compute Project(OCP)を通じてオープンソース化しました。ChatGPTやCodexのフロンティアモデル訓練に実際に使われており、Stargate(NVIDIA GB200)クラスタにすでに展開されています。
この記事でわかること:
- AIトレーニングクラスタが抱えていたネットワーク障害の問題
- MRCが実現するマルチプレーン構成の仕組みと省電力効果
- パケットスプレーイングで輻輳をほぼゼロにする方法
- 動的ルーティングを廃止してSRv6に置き換えた理由
- 実際の訓練中にスイッチ4台をリブートしても止まらなかった事例
https://openai.com/index/mrc-supercomputer-networking/
AIスーパーコンピュータのネットワークが抱えていた課題
大規模モデルの訓練では、1ステップあたり数百万回のデータ転送が発生します。そのうちの1件でも遅延すると、GPUが一斉に待機状態になります。週9億人が使うChatGPTを支えるStargateのような10万GPU超のクラスタでは、リンク障害やスイッチ障害が「常に起きているもの」として設計に折り込む必要があります。
従来の方式には2つの弱点がありました。
1つは輻輳です。複数のGPUが同じ転送先に同時送信すると、特定のリンクにトラフィックが集中します。1本のリンクが詰まると、同期処理全体の遅延が跳ね上がります。
もう1つは障害時の長い回復時間です。BGP(Border Gateway Protocol)などの動的ルーティングは、障害検知から経路再計算まで数秒〜十数秒かかります。100,000GPUが協調する同期プリトレーニングでは、数秒の停止が訓練全体の大きなコスト増に直結します。
MRCが変えた3つの設計
マルチプレーン構成で冗長性を確保
MRCは、1本の800Gb/sネットワークインターフェースを8本の100Gb/sリンクに分割して、8つの独立した「プレーン(面)」を構成します。
従来の800Gb/s単一ネットワークでは、64ポートスイッチ1台で接続できるGPU数に限界があり、10万GPU規模のクラスタには3〜4段のスイッチ階層が必要でした。MRCのマルチプレーン設計では、同じスイッチが512ポートを処理できるため、131,000GPU規模のクラスタを2段スイッチだけで構築できます。
スイッチの段数が減ることで、電力消費・障害が起きる部品数・コストがすべて下がります。
パケットスプレーイングで輻輳をほぼゼロに
従来のRoCE(RDMA over Converged Ethernet)プロトコルは、1つの転送を1本のパスに固定します。複数の転送が同じリンクを使うと輻輳が生じ、同期トレーニングの足を引っ張ります。
MRCは1つの転送のパケットを数百のパスにスプレー(分散)します。パケットは順序バラバラに届きますが、各パケットにメモリアドレスが埋め込まれているため、受信側は届いた順に直接メモリに書き込めます。
さらにパスの品質を常時監視し、輻輳が増えたパスを別のパスに切り替えます。パケットロスが検出されると、そのパスを即座に「故障の可能性あり」と判定して使用を停止。Probeパケットで回復を確認したら再利用します。スイッチ側では輻輳でパケットを捨てる代わりにヘッダだけを転送(Packet Trimming)し、誤検知の多い再送を避けます。
SRv6で動的ルーティングを廃止
MRCは、送信元がパス全体を明示的に指定できるIPv6 Segment Routing(SRv6)を採用しています。各パケットのあて先アドレスに経由するスイッチのIDを順番に埋め込み、スイッチは静的テーブルを参照して転送するだけです。
動的ルーティングプロトコルを走らせる必要がなくなるため、スイッチの設定は一度決めたら変更不要。ルーティングに起因する障害クラス全体が排除されます。障害発生時の経路切り替えはエンドポイントのMRC実装が担うため、スイッチは経路再計算をしません。回復はマイクロ秒単位で完了します。
実際の運用で何が変わったか
Stargateの本番訓練クラスタでは、Tier-0〜Tier-1スイッチ間のリンクフラップが毎分複数件発生しても、同期プリトレーニングへの影響は計測できないレベルでした。リンク修復の優先度を下げられるほど影響が小さかったとOpenAIは報告しています(参考)。
直近のフロンティアモデル(ChatGPTとCodexの訓練に使用)では、訓練中にTier-1スイッチ4台をリブートしました。以前なら運用チームが訓練チームに事前調整を要請していた作業です。MRC導入後は、訓練中でも調整なしで実施できるようになっています。
GPUのネットワークインターフェースでリンクが1本落ちた場合、以前は訓練ジョブ自体のクラッシュを招きました。MRCは1ポート損失を検知すると該当プレーンを除外して残りのパスだけで動き続け、リンクが復旧次第、自動で再組み込みします。
オープン化で業界標準を目指す
MRC仕様はOCPへのコントリビューションとして公開されており、業界全体が利用・拡張できます。OpenAIはあわせて論文「Resilient AI Supercomputer Networking using MRC and SRv6」を共著で発表しています。
OpenAIはネットワーク設計のような主要インフラ層に共有標準を設けることで、AIシステムをより効率的かつ信頼性高くスケールさせられると位置づけています。訓練クラスタの規模が拡大するほど、ネットワーク品質が実際に利用できるコンピュートの割合を左右します。MRCはそのボトルネックを取り除く技術として、今後の大規模AI開発のインフラ標準候補になります。