ローカルLLMを動かすとき、最初にぶつかるのはVRAMの壁です。Intelは2026年4月24日にArc Pro Graphics向けのHotFixドライバ(バージョン32.0.101.8517)をリリースし、内蔵GPU(iGPU)に割り当てられるシステムRAMの上限を従来の87%から93%へ引き上げました。これにより、VRAM容量がボトルネックになっていたローカルLLM推論の実用性が大きく改善します。
この記事でわかること:
- 今回のドライバ更新で何が変わったか
- 対応ハードウェアとOS
- 実際にどの規模のLLMが動かせるか
- AMDやAppleとのメモリ活用の違い
https://www.intel.com/content/www/us/en/download/741626/intel-arc-pro-graphics-windows.html
従来の問題 — iGPUのメモリ上限がボトルネックだった
ローカルLLM推論では、モデルのウェイト全体をVRAMに載せる必要があります。70Bパラメータのモデルを4bit量子化しても40GB前後のメモリが必要で、専用VRAMが数GBしかない一般的なiGPUでは実行できません。
IntelはCore Ultra Series 2のドライバで「Shared GPU Memory Override」機能を導入し、システムRAMの87%までをiGPUのVRAMとして動的に割り当てられるようにしました。32GBのシステムであれば最大28GBをiGPUが使えるようになり、ローカルLLMの実行が現実的な選択肢として浮上してきました。今回の更新はそのさらに一歩先です。
新ドライバ(32.0.101.8517)の変更点
メモリ割り当ての上限が87%から93%に引き上げられました。
| システムRAM | 旧上限(87%) | 新上限(93%) |
|---|---|---|
| 32 GB | 約28 GB | 約30 GB |
| 64 GB | 約56 GB | 約59.5 GB |
この変更が適用されるiGPUはArc Pro B390とArc Pro B370です。ドライバ自体はArc Pro AシリーズおよびBシリーズの独立型GPUにも対応していますが、メモリ割り当て拡張の恩恵を受けるのはiGPUのみとなります。
対応OSはWindows 10 22H2とWindows 11(21H2〜25H2)です。対応プラットフォームはAlchemist世代とBattlemage世代のArc Graphicsで、Core UltraプロセッサはMeteor Lake、Lunar Lake、Arrow Lake-S/H、Panther Lakeが含まれます。
どの規模のモデルが動くか
Tweaktownの分析によると(参考)、今回の拡張によって以下のモデル実行が現実的になります。
- 32GBシステム(約30GB割り当て): Qwen 2.5 32Bを4bit量子化で実行可能。コンテキストウィンドウにも十分な余裕がある
- 64GBシステム(約59.5GB割り当て): Llama 3 70Bを4bit量子化で実行可能。KVキャッシュ用の余裕も確保できる
IntelはiGPU向けのLLM推論フレームワーク「IPEX-LLM」をオープンソースで公開しており、Ollama、vLLM、LangChainとの統合もサポートしています。
AMDやAppleとのメモリ活用の違い
同じiGPUのメモリ共有アーキテクチャを持つ競合と比較します。
AMDのVariable Graphics Memory(VGM)は、Ryzen AI Max+(Strix Halo)の128GB構成で約75%にあたる96GBをiGPUに割り当てられます。Intel以外の一般的なRyzen AI構成では87%が上限であり、割り当て率だけ見ればIntelの93%が現時点で最も高い数値です。ただし帯域幅には差があります。IntelのCore Ultra Series 3(Panther Lake)はLPDDR5X-9600で約150GB/sを確保するのに対し、AMD Strix Haloは256-bitバスで256GB/sを提供します。モデルがメモリに収まっても、帯域幅が狭ければ推論速度に影響します。
AppleはUnified Memory Architecture(UMA)を採用しており、CPUとGPUがメモリを物理的に共有します。割り当て上限という概念がなく、M5 Maxでは614GB/sの帯域幅を持ちます。IntelやAMDが「何%まで割り当てられるか」で競うのとは、根本的に異なるアーキテクチャです。
まとめ
Intel Arc Pro iGPU向けドライバ(32.0.101.8517)により、システムRAMの93%をVRAMとして活用できるようになりました。32GBシステムなら30B級、64GBシステムなら70B級のLLMをローカルで動かせる計算になります。専用GPUを追加せずにローカルLLMを試したい場合、Arc Pro B390やArc Pro B370搭載のマシンが有力な選択肢になりつつあります。