Google CloudとNVIDIAが新AI基盤　A5Xで推論コスト10分の1

Google Cloud Next ’26でNVIDIAとGoogle Cloudが共同AIプラットフォームの大型更新を発表した。次世代アーキテクチャ「Vera Rubin」搭載のA5Xインスタンスで推論コストが前世代比10分の1になるほか、GPU1台を最大8分割して貸し出すFractional G4 VMや、クラウド初のBlackwell機密コンピューティングも追加されている。

この記事でわかること：

A5X bare-metalインスタンスによる推論コスト・スループット改善の内訳
Fractional G4 VMでGPUリソースをどこまで細かく調整できるか
Confidential G4 VMで何が保護されるか
エージェントAIに使えるNemotronとNeMo RLの実装例

Vera Rubin搭載A5Xが推論コストと電力効率を前世代比10倍改善

https://blogs.nvidia.com/blog/google-cloud-agentic-physical-ai-factories/

2026年4月22日、ラスベガスで開催されたGoogle Cloud Next ’26でNVIDIAとGoogle Cloudは新AIインフラを発表した。10年以上にわたる共同エンジニアリングの成果で、今回はエージェントAIと物理AIの本番運用を加速する機能が中心となっている。

新インスタンス「A5X」はNVIDIA Vera Rubin NVL72ラックスケールシステムを搭載する。チップ・システム・ソフトウェアのコデザインにより、1トークンあたりの推論コストは前世代比10分の1、1メガワットあたりのトークンスループットは10倍に向上した。ネットワークはNVIDIA ConnectX-9 SuperNICsとGoogle独自のVirgoネットワークを組み合わせており、単一サイトで最大8万枚、マルチサイト構成では最大96万枚のRubin GPUにスケールできる。OpenAIはすでにA4X Max VM（NVIDIA GB300 NVL72搭載）上でChatGPTの大規模推論を実行している。

GPU1台を最大8分割　Fractional G4 VMでリソース調整が細かく

Blackwellポートフォリオには「Fractional G4 VM」がプレビューとして加わった。NVIDIA vGPU技術を使い、NVIDIA RTX PRO 6000 Blackwell Server Edition 1台を複数のVMで分割利用できる。

サイズはワークロードに合わせて選べる：

1/2 GPU：LLM推論、ロボティクスシミュレーション、高精細3Dレンダリング向け
1/4 GPU：動画変換、リアルタイムデータ可視化などの中規模処理向け
1/8 GPU：リモートデスクトップ、エントリーレベルのストリーミング向け

GKEで管理でき、Dynamic Workload Schedulerとの組み合わせで空きスロットへの自動フォールバックも設定できる。必要なGPU容量だけを確保し、使った分だけ料金を支払う構造のため、過大なインスタンスを常時稼働させる必要がなくなる。

創薬プラットフォームSchrödinger は分子シミュレーションのリソース調整を細かく最適化できると評価しており、数週間かかっていた薬物探索シミュレーションをGoogle Cloud上のNVIDIAインスタンスで数時間に短縮した実績がある。

クラウド初のBlackwell機密コンピューティング　Confidential G4 VM

「Confidential G4 VM」はNVIDIA RTX PRO 6000 Blackwell GPUをクラウドのマルチテナント環境で機密コンピューティングに対応させる、クラウド初のオファリングだ。

NVIDIA Confidential Computing（機密コンピューティング）により、プロンプト・モデルのウェイト・ファインチューニングデータは暗号化されたまま処理される。インフラオペレーターを含む第三者からはその内容を参照できない。医療・金融・法律といった規制産業でのAI採用で、データ主権とパフォーマンスの両立を求める企業向けの機能となっている。

オンプレミス環境向けには、Google Distributed Cloud上でGemini on NVIDIA BlackwellおよびBlackwell Ultraを動かすプレビューも発表された。機密性の高いデータを社内インフラに留めたまま、Googleのフロンティアモデルを利用できる構成だ。

Gemini Enterprise Agent PlatformにNVIDIA Nemotronが統合

エージェントAI開発向けに、Gemini Enterprise Agent Platform上でNVIDIA Nemotron 3 Superが使えるようになった。推論・マルチモーダル処理に特化したオープンモデルで、カスタマイズから本番デプロイまで同プラットフォーム上で一貫して行える。

あわせて、強化学習（RL：Reinforcement Learning）トレーニングを自動処理するManaged RL APIが追加された。NVIDIA NeMo RLで構築されており、クラスターのサイジング・障害復旧・ジョブ実行を自動化する。開発チームはモデルの品質や行動設計に集中できる。

セキュリティ企業CrowdStrikeは、NeMo Data Designer・Automodel・Megatron Bridgeで合成データを生成し、Nemotronなどのモデルをサイバーセキュリティ向けにファインチューニングしている。Managed Training Clusters上のBlackwell GPUで動かすことで、脅威検知と対応の精度向上を加速している。

物理AI・ロボティクス向けにも対応を拡大

NVIDIA OmniverseライブラリとオープンソースのIsaac Sim（ロボティクスシミュレーションフレームワーク）がGoogle Cloud Marketplaceで提供され、デジタルツインの構築からロボット訓練・検証まで一連のパイプラインをGoogle Cloud上で完結できる。

Cosmos Reason 2のNIM microservicesをVertex AIとGKEにデプロイすることで、視覚AIエージェントが物理環境をリアルタイムで認識・判断・行動できる。産業用ソフトウェアのCadenceとSiemens Digital Industries Softwareのソリューションも、Google Cloud上でNVIDIA AIインフラとして動く。General Motorsはフォトリアリスティックシミュレーションのスループットが4倍に向上し、自動運転向けエッジケースの検証を加速していると報告している。

次のマイルストーンはVera Rubin NVL72の一般提供

Vera Rubin NVL72の一般提供は2026年後半が予定されている。Fractional G4 VMとConfidential G4 VMは現在プレビュー段階で、Google Cloud Consoleから申し込める。

NVIDIAとGoogle Cloudの開発者コミュニティにはすでに9万人以上が参加しており、今回の発表でエージェントAIと物理AIの実装選択肢は大幅に広がった。コスト・柔軟性・機密性のいずれかを理由にGPUクラウドの採用を見送っていたチームにとって、選択肢を見直すタイミングとなる。