AIインフラの主戦場が、クラウド上のレンタルGPUから「自社データセンターに置くチップ」へと移り始めています。
Googleは2026年4月22日のCloud Nextで、学習専用の「TPU 8t」と推論専用の「TPU 8i」という第8世代TPU 2チップを発表しました。さらに2026年4月29日のAlphabetのQ1決算発表では、「選定された顧客の自社データセンターにTPUを直接納品する」という新たなビジネスモデルも明らかになりました。
この記事でわかること:
- 学習と推論でチップを分けたGoogleの設計思想
- TPU 8tとTPU 8iの主なスペックと改善点
- 外部データセンターへのTPU販売が業界に与えるインパクト
- Google CloudのQ1 2026業績とAI需要の規模感
学習と推論を別チップに分けた理由
エージェントAI時代において、学習(training)と推論(inference)は要求が根本的に異なります。学習は膨大なデータと計算リソースを使ってモデルを構築するバッチ処理で、大きな計算スループットとチップ間の広帯域幅が必要です。推論は、ユーザーのリクエストに即座に応答するリアルタイム処理で、低レイテンシーとメモリ効率が重要になります。
従来のGPUは汎用設計のため、どちらも平均的にはこなせますが、それぞれに最適ではありませんでした。Googleは第8世代TPUを2チップ構成にすることで、各用途に特化した設計を実現しました。
TPU 8t:大規模学習に特化した訓練チップ
TPU 8tは、大規模モデルの学習期間を「月単位から週単位」に短縮するために設計された訓練チップです。Broadcomと共同設計されており、2つの計算ダイと8段積みHBM3eを搭載しています。
主なスペックは以下のとおりです。
- 1スーパーポッドあたり9,600チップ、共有HBM 2ペタバイト
- FP4演算で12.6ペタフロップス、チップ間帯域幅 19.2Tbps
- 前世代(Ironwood)比 約3倍の計算性能、約2.8倍の学習コストパフォーマンス
- ストレージアクセス速度は前世代比10倍(TPUDirect Storageと組み合わせ)
- Virgo Networkと組み合わせて最大100万チップまで近線形スケーリング
- 有効稼働時間(goodput)97%以上を目標
「goodput」とは、チップが実際にモデルの学習に費やした時間の割合です。ハードウェア障害やネットワーク停止で失われる時間を最小化するため、リアルタイムテレメトリ、障害時の自動ルーティング変更、光回路スイッチング(OCS)による自動切替を備えています。
TPU 8i:エージェント時代の推論エンジン
TPU 8iは、複数のAIエージェントが協調して動作するワークロードに特化した推論チップです。MediaTekと共同設計されており、シンプルな1計算ダイ構成でコストを抑えながら、推論速度を最大化する設計になっています。
TPU 8iが重点的に解決するのは「ウェイティングルーム問題」です。推論中、モデルが次のトークンを生成する前にメモリアクセスを待つ時間がボトルネックになります。TPU 8iはこれを以下の方法で解消しました。
- オンチップSRAM 384MB(前世代比3倍):KVキャッシュをオンチップに全て保持し、メモリ待ちを排除
- HBM 288GB、帯域幅8.6TB/s
- 新インターコネクト「Boardfly」:MoE(Mixture of Experts)モデルのall-to-all通信を最適化し、ネットワーク直径を50%以上削減
- オンチップ集合演算アクセラレータ(CAE):集合演算のレイテンシを最大5分の1に削減
これにより、前世代比でパフォーマンス/コスト比が80%改善し、同じコストで約2倍の顧客リクエストを処理できます。
両チップはTSMCの2nmプロセスで製造され、2026年後半に一般提供(GA)の予定です。現在は問い合わせ受付中です。
https://cloud.google.com/resources/tpu-interest
外部データセンターへのTPU販売という新戦略
AlphabetのQ1 2026決算発表でSundar Pichai CEOは、「AIラボや資本市場企業、HPC分野からのTPU需要の高まりを受けて、一部の顧客の自社データセンターにTPUを直接納品する」と述べました(参考)。
これはNvidiaのビジネスモデルに踏み込む動きです。Nvidiaはデータセンター向けGPUを企業に直接販売し、顧客が自社施設に設置する形態を長年展開してきました。Googleはこれまでクラウド経由(Google Cloud)でのみTPUを提供してきましたが、オンプレミス販売を加えることで、クラウドではなく自社インフラでAIを動かしたい組織にもアプローチできるようになります。
既存のTPU顧客としてPichai CEOはThinking Machines Lab、Hudson River Trading、Boston Dynamicsを挙げており、AI研究・金融・ロボティクスといった高性能計算を必要とする分野での採用が進んでいます。
Google Cloudは引き続きNVIDIA GPUも提供します。Vera Rubin NVL72を業界最早のクラスで提供予定であり、TPUとGPUを組み合わせた選択肢の多さが、競合に対するGoogleの差別化点のひとつとなっています。
Google Cloud Q1 2026:AI需要が牽引した63%成長
Google CloudのQ1 2026売上は初めて四半期200億ドル(約3兆円)を超え、前年同期比63%増を記録しました(参考)。バックログは前四半期比でほぼ倍増し、4,620億ドルに達しています。
AI関連製品の売上は前年同期比800%近い成長を記録し、初めてGoogle Cloudの成長を牽引する主要ドライバーになりました。Gemini Enterpriseの有料MAUは前四半期比40%成長し、BoschやCiti Wealth、Merck、Mars Inc.などの大手企業が導入しています。API経由のトークン処理量は毎分160億トークン(前四半期の100億から増加)に達し、この12ヶ月で1兆トークン以上を処理した顧客は330社にのぼります。
一方でPichai CEOは「短期的にはコンピュートリソースが不足しており、需要を満たせていればクラウド収益はさらに高かった」と認めており、インフラ整備が最優先課題であることも示唆しています。2026年の設備投資額はこれまでの計画から引き上げられ、1,800億〜1,900億ドルの見通しとなっています。
エージェントAI時代に向けたGoogleの全スタック戦略
TPU 8tとTPU 8iの2チップ体制は、Googleが「AI Hypercomputer」と呼ぶ全スタックアプローチの中核を担います。目的特化型のハードウェア(TPU・Axion CPU・HBM)、オープンなソフトウェア(JAX・MaxText・PyTorch・vLLM)、そして柔軟な提供モデル(クラウドとオンプレミスの両対応)を組み合わせることで、AIインフラの垂直統合を進めています。
エージェントが自律的にタスクを遂行する時代には、推論のスループットとレイテンシが直接サービスの品質を決めます。今回の2チップ戦略と外部データセンター展開は、その需要に応えるための布石です。