CPUだけでAIの推論を高速化したい。GPUに頼らず、手元のノートPCで大規模言語モデルを動かしたい。そんな需要が高まるなか、x86アーキテクチャの行列演算性能がボトルネックになっていました。AMDとIntelが共同で発表した新命令セット拡張「ACE」は、この課題に正面から取り組む技術です。

この記事でわかること

  • ACE(AI Compute Extensions)とは何か
  • 従来のAVX10と比べて何が変わるのか
  • 対応するデータ形式とソフトウェアの対応状況
  • ACEが登場した背景とx86の戦略的な意味
  • 開発者が今のうちに把握しておくべきポイント

ACEとは何か——x86に標準の行列演算基盤が生まれる

https://x86ecosystem.org/wp-content/uploads/2026/03/ACE-Whitepaper-v1.pdf

ACE(AI Compute Extensions)は、AMDとIntelが共同で策定したx86向けの行列演算拡張です。2026年4月15日にホワイトペーパーが公開されました。両社はACEを「x86のための標準行列アクセラレーションアーキテクチャ」と位置づけています。

ニューラルネットワークやLLMの計算処理の核は行列積です。従来のSIMD拡張であるAVX10でも行列積は実行できますが、演算密度とスケーラビリティに限界がありました。ACEはAVX10と統合する形で設計されており、専用ハードウェアへのオフロードなしにCPU内で高効率な行列演算を実現します。

演算密度16倍——外積演算という設計上の工夫

ACEの核心は「外積演算(outer product operation)」にあります。AVX10と同じ入力ベクトル2本を使いながら、1命令あたり最大1024回の乗算を実行します。これはAVX10の積和演算と比較して16倍の演算密度です。レジスタの負荷を増やさずにこの密度を実現している点が、設計上の大きな特徴です。

この仕組みにより、行列積をCPU上で実行するコストが大幅に下がります。GPU非搭載のノートPCでもLLMの推論速度が改善する余地が生まれます。データセンターのサーバーでは、CPUだけで処理できるワークロードの幅が広がります。

対応データ形式とソフトウェアの現状

ACEはAIワークロードで広く使われるデータ形式をネイティブでサポートします。対応する形式はINT8、OCP FP8、OCP MXFP8、OCP MXINT8、BF16の5種類です。FP8やMXFP8はLLM推論で主流になりつつある低精度フォーマットです。BF16はトレーニングと推論の両方で使われています。

ソフトウェア側の対応も進行中です。ホワイトペーパーによると、以下の統合が予定されています。

  • ディープラーニング・HPCライブラリ(低精度GEMM、LLMプリミティブ)
  • Python系ライブラリ(NumPy、SciPy)
  • 機械学習フレームワーク(PyTorch、TensorFlow)

現時点ではACE対応プロセッサの出荷時期は未公表です。Intel側はすでにGranite RapidsでAVX10.1とAMX(Advanced Matrix Extensions)をサポートしており、ACEはこの路線の延長上にあります。AMD側はZen 6以降での対応が見込まれますが、具体的な世代は明らかになっていません。

なぜ今ACEが必要なのか——ARMとの競争とEAGの役割

ACEが生まれた背景には、x86アーキテクチャが直面する構造的な課題があります。

AppleのMシリーズやArmベースのサーバーチップが台頭し、x86の優位性が揺らいでいます。NVIDIAのJensen Huang CEOも、IntelとAMDのx86連携はアーキテクチャの存続に不可欠だと発言しています(参考)。

2024年末にAMDとIntelが設立した「x86 Ecosystem Advisory Group(EAG)」は、両社がx86の命令セットを共同で進化させる組織です(参考)。EAGの活動1周年にあたる2026年4月、4つの新機能が正式に合意されました。

  • ACE: AI向け行列演算アクセラレーション
  • AVX10: ベクトル演算の標準化
  • FRED(Flexible Return and Event Delivery): ユーザーモードとカーネルモード切り替えの高速化
  • ChkTag(x86 Memory Tagging): バッファオーバーフローやuse-after-freeなどのメモリ安全性バグをハードウェアで検出

ACEが単独の発表ではなくEAGの枠組みで出てきたことには意味があります。AMDとIntelの両方が同じ命令セットを実装するため、ソフトウェア開発者はどちらのCPUでも同じ最適化コードを使えます。これまでIntelのAMXやAMDのAVX-512実装の違いに悩まされてきた開発者にとって、大きな前進です。

開発者が今知っておくべきこと

ACE対応プロセッサの出荷はまだ先ですが、開発者が今のうちに把握しておくべき点があります。

まず、ACEはAVX10の拡張として設計されているため、既存のAVX10向けコードとの互換性が保たれます。現在AVX-512やAVX10で最適化を進めているプロジェクトは、ACE対応時にコードの大幅な書き換えなしで恩恵を受けられる可能性があります。

また、ノートPCからスーパーコンピュータまでスケーラブルに動作する設計を目指しているため、特定のハードウェア構成に依存しないコードを書くことが推奨されます。GPUオフロードが前提のコードを書いているプロジェクトでも、CPU単体で十分な性能が出るシナリオが増えます。

PyTorchやTensorFlowの公式対応が進めば、フレームワーク経由で自動的にACEの恩恵を受けられます。低レベルの最適化を行わない開発者でも、フレームワークのアップデートを追うだけで対応は完了します。

x86のAI性能が底上げされる転換点

ACEは「CPUでAIをどこまでやれるか」という問いに対するAMDとIntelの共同回答です。ライバル同士が手を組んでまで標準化に踏み切った事実が、x86が置かれた競争環境の厳しさと、AI対応の緊急性を物語っています。対応プロセッサの登場時期によっては、GPU依存のAI処理のあり方そのものに影響を与える技術になるかもしれません。