Strix Haloで動くローカル音声AI AMDデモが示した可能性

AMDのAIソフトウェア担当VP、Anush Elangovanが自作デバイスをTBPNのポッドキャストでデモし、話題になっています。3キーのキーボードと1本のノブだけを備えた小型筐体に、Strix HaloチップとローカルのWhisperモデルが収まっており、完全オフラインでリアルタイム音声文字起こしが動作します。

クラウドAPIなしで、これほど実用的な音声AIが個人の手元で動く——このデモはAMDが長らく力を入れてきたローカルAI戦略が現実のユースケースに届いたことを示しています。

この記事でわかること：

Strix Haloがローカルの音声AIに向いている理由
Whisperを動かしたときの具体的な処理速度
VulkanとROCmのどちらを使うべきか
AMDが2026年Q2に投入するRyzen AI Halo Mini PCの概要
NVIDIA DGX Sparkとのコスト・性能の差

AMDのVPが作った「音声AIデバイス」

Anush ElangovanはAMDでAIソフトウェアとソリューションのコーポレートVPを務めるエンジニアです。23年の業界経験を持ち、AIコンパイラ・OS・ハードウェア設計に携わってきた人物が、個人プロジェクトとしてStrix Halo搭載の文字起こし専用機を作りました。

インターフェースはシンプルで、「次のセッション」「前のセッション」「プッシュ・トゥ・トーク」の3キーと、モデルを切り替えるための1本のノブだけです。ボタンを押しながら話すと、その音声がその場でテキストに変換されます。インターネット接続は不要で、音声データは一切外部に出ません。

このデモが興味深いのは、製品発表でも公式デモでもなく、AMDの現場エンジニアが「自分で作って使っている」という点にあります。Strix Haloが実用に足るローカルAI基盤であることの、最も説得力のある証拠です。

Strix Haloとはどんなハードウェアか

Strix HaloはAMDのRyzen AI Max+ 395のコードネームで、2025年から搭載製品が市場に出始めたSoC（システム・オン・チップ）です。

構成は以下の通りです。

CPUコア：16コア（Zen 5アーキテクチャ）
GPU：40コンピュートユニット（RDNA 3.5、Radeon 8060Sとして統合）
NPU：50 TOPS（XDNA 2アーキテクチャ）
メモリ：最大128GB LPDDR5X（CPUとGPUが共有）

CPUとGPUがメモリを共有する「統合メモリアーキテクチャ」が最大の特徴です。GPUへのデータ転送の遅延がなく、128GBのうち最大96GBをGPU用として割り当てられます。

ローカルAIに適した理由：128GBの統合メモリ

LLMや音声認識モデルの推論速度は、メモリ帯域幅によってほぼ決まります。GPUがトークンを生成するたびに、モデルの重みをメモリから読み出す必要があるためです。

NVIDIA RTX 4090でローカルLLMを動かす場合、VRAMは24GBしかなく、大きなモデルはCPUメモリへのオフロードが必要になります。このときのPCIeバスのボトルネックが推論速度を大きく下げます。

Strix Haloはこの問題が構造的に存在しません。128GBのメモリすべてにCPU・GPUが同じ帯域で直接アクセスでき、理論値256GB/s（実測値約215GB/s）の帯域が利用できます。

Strix Haloで70Bパラメータのモデルを動かすと約5トークン/秒、30Bモデルなら15トークン/秒前後が出ます。MoE（Mixture of Experts）モデルではさらに速く、Qwen3-30B-A3Bの実測では52トークン/秒という報告もあります（参考）。

Whisperがリアルタイムの138倍速で動く

音声認識モデルのWhisperをStrix Haloで動かしたときの速度は、クラウド並みの実用性を備えています。

CTranslate2のTinyモデルをStrix HaloのGPU（Radeon 8060S、gfx1151）で加速した検証では、11秒の音声を80ms以内で文字起こし——リアルタイムの138倍という速度を達成しています。

whisper.cpp 1.8.0はROCm 7.0.1とのビルドが確認されており、以下の設定でStrix Halo向けのビルドが可能です（参考）。

cmake .. \
  -DGPU_TARGETS="gfx1151" \
  -DGGML_HIP=ON \
  -DCMAKE_C_COMPILER=/opt/rocm/bin/amdclang \
  -DCMAKE_CXX_COMPILER=/opt/rocm/bin/amdclang++

gfx1151はStrix HaloのGPUを指定するターゲット名です。

AMDはRyzen AI NPUを使ったWhisperのオンデバイス推論も公式でサポートしています。NPUを使うことでGPUを解放したまま音声認識を走らせられるため、LLMとの同時実行にも適しています（参考）。

VulkanとROCmの使い分け

Strix Haloでローカルモデルを動かす際に迷うのが、バックエンドの選択です。

Vulkan（RADVドライバ）が推奨される場面は、一般的なチャットや音声認識など、コンテキスト長が4,000トークン以内のワークロードです。設定が簡単で安定しており、Ubuntu 22.04以降であればドライバのアップデートだけで利用できます。

ROCm/HIPが有利な場面は、RAGパイプラインや長文の要約など、8,000トークンを超える長文処理です。VulkanはコンテキストがGPUに収まらなくなると速度が落ちますが、ROCmはFlash Attentionを有効にすることで長コンテキストでも一定の速度を維持できます。

最初はVulkanで始め、長文処理が必要になったときにROCmへ移行するのが現実的な運用です。

AMDが公式製品化：Ryzen AI Halo Mini PC

CES 2026でAMDが発表した「Ryzen AI Halo」は、Strix Haloを搭載したAI開発向けのMini PCプラットフォームです。2026年Q2の発売が予定されています。

https://videocardz.com/newz/amd-announces-ryzen-ai-halo-mini-pc-platform-aimed-at-local-ai-positioned-against-nvidia-dgx-spark

ROCm 7.2.2のフルサポートのほか、LM Studio・ComfyUI・VS Codeなどの開発ツール向けに最適化されています。GPT系のオープンモデル・FLUX.2・SDXLなど主要モデルへのDay 0サポートも謳っています。

NVIDIA向けに特化していたAI開発環境が、公式にサポートされた状態でAMDハードウェア上で動く——これがRyzen AI Haloの意義です。

NVIDIA DGX Sparkとの違い

NVIDIAのDGX Sparkは同じ128GB統合メモリを持つAI開発向けMini PCで、Strix Haloとの直接の競合製品です。価格はRyzen AI Haloのほぼ2倍とされています。

処理速度の違いは用途によって大きく異なります。長文コンテキストの初期処理（プロンプト処理）はDGX Sparkが圧倒的に速く、1,723トークン/秒対Strix Haloの339トークン/秒という差があります（参考）。ドキュメント分析や大規模なコードベース処理が中心なら、この差は実感できます。

一方、会話のターン1つあたりのトークン生成速度は120Bモデルで34〜38トークン/秒と、両機でほぼ同じです。チャットや音声認識など対話的な用途なら体験の差はほとんどありません。

Strix Haloの利点はWindows対応とx86互換性です。既存のWindowsアプリやゲームをそのまま動かしながら、ローカルAI開発環境として使えます。DGX SparkはARM + Linux環境のため、既存ツールとの組み合わせに制約が出ることがあります。

まとめ

AMDのAI担当VPが自作の音声AIデバイスをデモしたことは、Strix Haloが単なる高性能チップ以上の意味を持ち始めていることを示しています。128GBの統合メモリという構造的な優位性は、ローカルAI推論の大半のユースケースで有効に機能します。

Whisperは実時間の138倍速で動き、70Bモデルの会話も成立する速度が出ます。ソフトウェア面での課題はROCmのセットアップ複雑さにありますが、Vulkanバックエンドを使えば大半のワークロードは動きます。

Ryzen AI Halo Mini PCが2026年Q2に発売されれば、ローカルAI開発のための手頃な選択肢がNVIDIA以外にも広がります。AMD AI DevDay（4月30日）で追加情報が公開される予定で、価格と具体的なスペックが明らかになる見込みです。