2026年5月7日、AWSの米国東部リージョンで大規模な障害が発生した。原因はデータセンター内の過熱。EC2インスタンスとEBSボリュームが停止し、Coinbaseは約7時間にわたって取引を停止した。
この記事でわかること:
- 過熱がどのように連鎖的な障害を引き起こしたか
- 影響を受けたサービスと被害の規模
- 復旧に時間がかかった技術的な理由
- マルチAZ設計でCoinbaseの停止は防げたのか
午後5時25分に始まったサーマルイベント
障害が始まったのは日本時間2026年5月8日午前9時25分(米東部夏時間5月7日午後5時25分)ごろだ。AWSのエンジニアが、米国東部リージョン(us-east-1)のアベイラビリティゾーン「use1-az4」でサーバー温度の急上昇を検知した。
AWSの公式ステータスレポートには「単一データセンター内で温度上昇を確認。一部インスタンスで障害が発生した」と記録されている(参考)。
us-east-1は世界で最も使われているAWSリージョンのひとつで、ノーザンバージニアに集中するデータセンター群の中核にあたる。過去にもDNS障害でSlack・Zoom・Snapchatが停止するなど、何度もクラウド大規模障害の震源地になってきた。
熱がなぜ停電を引き起こしたのか
データセンター内のサーバーは、安全な動作温度を超えると自動的にシャットダウンする設計になっている。今回はその仕組みが連鎖反応を引き起こした。
AWSが後に「サーマルイベント(thermal event)」と呼んだ今回の現象では、冷却システムの一部が機能しなくなり、特定ホール内の気温が急上昇。過熱したハードウェアが停電状態に陥り、そこで稼働していたEC2インスタンスとEBSボリュームがまとめて停止した。
EC2は仮想サーバー、EBSは永続的なディスクストレージにあたる。どちらも停止すれば、その上で動いているサービスはデータアクセスごと止まる。AWSはこの状態を「EC2 impairment(EC2の機能停止)」と表現した。
影響を受けたサービスと停止時間
Coinbase(暗号通貨取引所)は取引機能が約7時間停止した。同社はX上で順次状況を報告し、「全市場でトレードを再開した」と発表したのは翌日未明だった。資金の安全性は維持されているとも付け加えている(参考)。
CMEグループ(先物・デリバティブ市場)でもCME Directへのログインと接続レイテンシの問題が報告された。FanDuel(オンラインスポーツ賭博)は「プラットフォームへのアクセスができない」とユーザーに通知し、障害対応中であることをXで発表した。
インフラレベルでは、AWS IoT Core・NAT Gateway・Amazon EKS・Elastic Load Balancing・Amazon Redshiftが順次復旧した一方、ElastiCache・Amazon Managed Streaming for Apache Kafka・Amazon OpenSearch Service・Amazon SageMakerなどは数時間にわたって影響が継続した。
復旧が「予想より遅れた」理由
AWSは「追加の冷却容量をオンラインにする作業が当初の予定より時間がかかっている」と認め、復旧目途を明示しなかった。
データセンターの冷却システム復旧は単純な再起動ではない。温度が下がり、ハードウェアの安全が確認され、段階的に電力を再投入する必要がある。過熱で物理的なダメージを受けたハードウェアは交換対象になる場合もある。
冷却システムが安定水準に戻ったのは、障害発生から約20時間後の5月8日午後1時50分(米東部夏時間)のことだった。
マルチAZ設計でCoinbaseは止まらなかったのか
AWSは「影響は単一アベイラビリティゾーン(use1-az4)に限定されている」と早い段階でアナウンスしていた。クラウドの基本設計では、複数のAZにアプリケーションを分散することで、1つのゾーンが落ちても全体が止まらない仕組みになっている。
しかし今回、Coinbaseは7時間停止した。IT Proの報道によると、影響を強く受けた企業は依存サービスの一部をuse1-az4に集中させており、複数ゾーンへの分散が不十分だったとみられる(参考)。
AWSが提供する「Multi-AZ」構成を選んでいれば、この規模の単一ゾーン障害は吸収できるはずだった。ただし全サービスをマルチAZ化するにはコストが増加するため、コスト最適化との兼ね合いで単一ゾーンに集約する運用判断をする企業も少なくない。今回の事故はその判断のリスクを改めて示す結果となった。
AI需要がデータセンターの熱負荷を押し上げている
今回の事故はAI需要の急増という背景でも注目を集めた。GPUサーバーはCPUに比べてはるかに高い熱密度を持ち、データセンターの冷却設計への要求を大きく引き上げている。
Nvidiaの最新アーキテクチャを搭載したGPUラックは1ラックあたり100kWを超える電力を消費するケースがあり、従来の空冷では対処できない場面が出始めている。業界全体で液冷システムへの移行が進んでいるものの、既存データセンターの設備刷新には時間がかかる。Network Worldの報道では、AWSのノーザンバージニアリージョンは「notorious(悪名高い)」とまで形容され、過去の障害履歴が改めて問われた(参考)。
クラウドサービスへの依存が深まるなかで、物理インフラの冷却能力はデジタルサービスの可用性を左右する直接的な要因になっている。クラウド利用企業は、AZをまたいだ冗長設計と依存サービスの分散状況を定期的に見直すことが求められる。