スマート家電や産業機器でも、会話型AIを端末内で動かしたい需要が高まっています。クラウドAPIに頼らなければ、データは外に出ず、オフラインでも応答できます。SynapticsとGoogle Researchは、Torq NPU向けにGemma 3 270Mの推論を最適化する3つの手法を公開しました。
この記事では、エッジLLM推論のボトルネックと、静的化・活性化関数の高速化・混合精度量子化による解決策を整理します。
この記事でわかること
- エッジNPUでLLM推論が難しい3つの理由
- Synaptics Torq NPUとGoogle Coral NPUの役割分担
- 推論速度3.5倍を支える3つの最適化手法
- 開発者が試せるハードウェアとソフトウェア
エッジLLM推論が抱える3つの壁
LLM(大規模言語モデル)をエッジ端末で動かすとき、CPUだけに任せるとアプリ本体の処理能力を奪います。専用のNPU(Neural Processing Unit、AI演算向けアクセラレータ)へオフロードするのが筋ですが、一般的なエッジNPUはLLM向けに設計されていません。
Synapticsの技術解説では、主な障壁が3点に整理されています(参考)。
- 動的な実行パターン — Gemma 3 270MのようなTransformerモデルは、会話が進むほどシーケンス長やアテンションマスクが変わります。多くのエッジNPUは固定サイズのテンソルしか扱えず、動的ランタイムに弱いです。
- 活性化関数のコスト — GELUやSoftmaxは指数・除算を含む重い演算で、汎用アクセラレータではレイテンシと消費電力のボトルネックになります。
- メモリ帯域 — 計算性能よりも重み行列の読み出し速度が律速し、NPUが待ち時間に陥ります。
加えて、欧州のCyber Resilience Act(CRA)のような規制や、対話型AIに求められる低レイテンシも、クラウド依存を避ける動機になります。
SynapticsとGoogle Researchの協業
SynapticsのAstra SL2610は、Google ResearchのCoral NPUをIoT向けSoCに統合した製品ラインです。Torq NPUは、Synaptics製のTransformer対応コア「T1」と、Google製のスカラーRISC-Vコア「Coral NPU」を組み合わせたヘテロジニアス構成です。
T1はTransformerやCNN向けの固定機能アクセラレータで、1 TOPS(INT8)の性能を持ちます。Coral NPUはスカラー演算をArm Cortex-A55を経由せずに処理し、バス越しのオーバーヘッドを抑えます。Googleは2025年10月にCoral NPUのIPをオープンソース化し、Synapticsが量産実装の第一号です(EE Times)。
ソフトウェア側は、GoogleのMLIR/IREEベースのオープンソースツールチェーンが使われます。PyTorch、ONNX、JAX、LiteRTなど複数フォーマットに対応し、モデル最適化からデプロイまで一貫した開発が可能です。
対象モデルとして挙げられているGemma 3 270Mは、18層のTransformer、GELU活性化、Softmax、大規模な行列積で構成されます。Synapticsは2026年3月、Astra SL2610搭載の限定版Coral Dev Boardも発表しており、ウェアラブルやスマート家電向けの評価環境を提供しています。
3つの最適化手法
Torq NPU向けコンパイラは、Gemma 3 270Mの推論ボトルネックを次の3柱で解消します。
静的モデル変換
クラウド向けランタイムは可変長テンソルを前提にしますが、Torq NPUは固定次元の静的ランタイムが必要です。コンパイラは動的グラフを静的グラフへ変換し、伸び続けるKVキャッシュを事前確保した固定テンソルに置き換えます。アテンションマスクと位置エンコーディングも静的化し、実行タイミングを予測可能にします。動的メモリ確保のオーバーヘッドが消え、ハードウェア利用率が上がります。
GELUとSoftmaxのハードウェア近似
GELUとSoftmaxは、入力域を分割してルックアップテーブル(LUT)と線形補間で近似します。指数・除算を繰り返さないため、消費電力を抑えられます。
Synapticsの検証では、GELUは従来比10倍、Softmaxは12.5倍の推論速度向上が報告されています(公式ブログ)。Softmaxでは除算なしのアテンション機構も実現しています。
感度ベースの混合精度量子化
メモリ帯域が最大の律速要因なので、レイヤーごとの感度に応じて量子化ビット数を変えます。84%のレイヤーを4bit、言語モデルヘッドなど精度に敏感な16%を8bitのまま保持する戦略です。
16bitから平均4.3bitへ圧縮しても、モデル精度の劣化はごく小さいとSynapticsは説明しています。圧縮した重みはストリーミングしながらbf16へその場で復元し、実効スループットは2.7倍に向上します。語彙のトリミングやDMA効率の改善も加わり、推論全体が速くなります。
組み合わせた結果と活用例
3手法を組み合わせると、Torq NPU上の推論速度は3.5倍に達します。活性化関数は10倍速、動的確保のオーバーヘッドは解消され、メモリ帯域も改善されます。
実際のデモでは、Gemma 3 270MをNPU上で動かし、自然言語からLEDやブザーを制御するツール呼び出し、英語から他言語へのオフライン翻訳、画像内容の自然言語説明などが示されています。MoonshineAIの音声認識と組み合わせたマルチモーダル構成も公開されています。
エッジ実行の利点は明確です。会話データがクラウドに送られず、API課金も不要です。ネットワークが切れても応答でき、対話の待ち時間も短くなります。
開発者が試すには
実装とドキュメントはGitHubのsynaptics-torq/torq-examplesで公開されています。Gemma 3 270Mの対話デモは、コンパイル済みVMFBバイナリをinfer.pyで実行する形式です。コンパイラ本体はsynaptics-torq/torq-compiler(Apache 2.0)で、v1.5.0が最新リリースです。
ハードウェア評価には、Synaptics Astra SL2610 Machina開発キットの購入、または限定版Coral Dev Boardが使えます。Google I/O 2026以降の展開も予告されています。
エッジLLMは「小さいモデルを無理やりCPUで回す」段階から、NPU向けコンパイラ最適化と専用ハードウェアの組み合わせで実用化が進んでいます。SynapticsとGoogle Researchの取り組みは、その設計思想を具体的な数値とオープンソース資産で示した事例です。

