スマート家電や産業機器でも、会話型AIを端末内で動かしたい需要が高まっています。クラウドAPIに頼らなければ、データは外に出ず、オフラインでも応答できます。SynapticsとGoogle Researchは、Torq NPU向けにGemma 3 270Mの推論を最適化する3つの手法を公開しました。

この記事では、エッジLLM推論のボトルネックと、静的化・活性化関数の高速化・混合精度量子化による解決策を整理します。

この記事でわかること

  • エッジNPUでLLM推論が難しい3つの理由
  • Synaptics Torq NPUとGoogle Coral NPUの役割分担
  • 推論速度3.5倍を支える3つの最適化手法
  • 開発者が試せるハードウェアとソフトウェア

エッジLLM推論が抱える3つの壁

LLM(大規模言語モデル)をエッジ端末で動かすとき、CPUだけに任せるとアプリ本体の処理能力を奪います。専用のNPU(Neural Processing Unit、AI演算向けアクセラレータ)へオフロードするのが筋ですが、一般的なエッジNPUはLLM向けに設計されていません。

Synapticsの技術解説では、主な障壁が3点に整理されています(参考)。

  1. 動的な実行パターン — Gemma 3 270MのようなTransformerモデルは、会話が進むほどシーケンス長やアテンションマスクが変わります。多くのエッジNPUは固定サイズのテンソルしか扱えず、動的ランタイムに弱いです。
  2. 活性化関数のコスト — GELUやSoftmaxは指数・除算を含む重い演算で、汎用アクセラレータではレイテンシと消費電力のボトルネックになります。
  3. メモリ帯域 — 計算性能よりも重み行列の読み出し速度が律速し、NPUが待ち時間に陥ります。

加えて、欧州のCyber Resilience Act(CRA)のような規制や、対話型AIに求められる低レイテンシも、クラウド依存を避ける動機になります。

SynapticsとGoogle Researchの協業

SynapticsのAstra SL2610は、Google ResearchのCoral NPUをIoT向けSoCに統合した製品ラインです。Torq NPUは、Synaptics製のTransformer対応コア「T1」と、Google製のスカラーRISC-Vコア「Coral NPU」を組み合わせたヘテロジニアス構成です。

T1はTransformerやCNN向けの固定機能アクセラレータで、1 TOPS(INT8)の性能を持ちます。Coral NPUはスカラー演算をArm Cortex-A55を経由せずに処理し、バス越しのオーバーヘッドを抑えます。Googleは2025年10月にCoral NPUのIPをオープンソース化し、Synapticsが量産実装の第一号です(EE Times)。

ソフトウェア側は、GoogleのMLIR/IREEベースのオープンソースツールチェーンが使われます。PyTorch、ONNX、JAX、LiteRTなど複数フォーマットに対応し、モデル最適化からデプロイまで一貫した開発が可能です。

対象モデルとして挙げられているGemma 3 270Mは、18層のTransformer、GELU活性化、Softmax、大規模な行列積で構成されます。Synapticsは2026年3月、Astra SL2610搭載の限定版Coral Dev Boardも発表しており、ウェアラブルやスマート家電向けの評価環境を提供しています。

3つの最適化手法

Torq NPU向けコンパイラは、Gemma 3 270Mの推論ボトルネックを次の3柱で解消します。

静的モデル変換

クラウド向けランタイムは可変長テンソルを前提にしますが、Torq NPUは固定次元の静的ランタイムが必要です。コンパイラは動的グラフを静的グラフへ変換し、伸び続けるKVキャッシュを事前確保した固定テンソルに置き換えます。アテンションマスクと位置エンコーディングも静的化し、実行タイミングを予測可能にします。動的メモリ確保のオーバーヘッドが消え、ハードウェア利用率が上がります。

GELUとSoftmaxのハードウェア近似

GELUとSoftmaxは、入力域を分割してルックアップテーブル(LUT)と線形補間で近似します。指数・除算を繰り返さないため、消費電力を抑えられます。

Synapticsの検証では、GELUは従来比10倍、Softmaxは12.5倍の推論速度向上が報告されています(公式ブログ)。Softmaxでは除算なしのアテンション機構も実現しています。

感度ベースの混合精度量子化

メモリ帯域が最大の律速要因なので、レイヤーごとの感度に応じて量子化ビット数を変えます。84%のレイヤーを4bit、言語モデルヘッドなど精度に敏感な16%を8bitのまま保持する戦略です。

16bitから平均4.3bitへ圧縮しても、モデル精度の劣化はごく小さいとSynapticsは説明しています。圧縮した重みはストリーミングしながらbf16へその場で復元し、実効スループットは2.7倍に向上します。語彙のトリミングやDMA効率の改善も加わり、推論全体が速くなります。

組み合わせた結果と活用例

3手法を組み合わせると、Torq NPU上の推論速度は3.5倍に達します。活性化関数は10倍速、動的確保のオーバーヘッドは解消され、メモリ帯域も改善されます。

実際のデモでは、Gemma 3 270MをNPU上で動かし、自然言語からLEDやブザーを制御するツール呼び出し、英語から他言語へのオフライン翻訳、画像内容の自然言語説明などが示されています。MoonshineAIの音声認識と組み合わせたマルチモーダル構成も公開されています。

エッジ実行の利点は明確です。会話データがクラウドに送られず、API課金も不要です。ネットワークが切れても応答でき、対話の待ち時間も短くなります。

開発者が試すには

実装とドキュメントはGitHubのsynaptics-torq/torq-examplesで公開されています。Gemma 3 270Mの対話デモは、コンパイル済みVMFBバイナリをinfer.pyで実行する形式です。コンパイラ本体はsynaptics-torq/torq-compiler(Apache 2.0)で、v1.5.0が最新リリースです。

ハードウェア評価には、Synaptics Astra SL2610 Machina開発キットの購入、または限定版Coral Dev Boardが使えます。Google I/O 2026以降の展開も予告されています。

エッジLLMは「小さいモデルを無理やりCPUで回す」段階から、NPU向けコンパイラ最適化と専用ハードウェアの組み合わせで実用化が進んでいます。SynapticsとGoogle Researchの取り組みは、その設計思想を具体的な数値とオープンソース資産で示した事例です。