Intel Arc iGPUドライバ更新 — RAMの93%をLLM用VRAMに

ローカルLLMを動かすとき、最初にぶつかるのはVRAMの壁です。Intelは2026年4月24日にArc Pro Graphics向けのHotFixドライバ（バージョン32.0.101.8517）をリリースし、内蔵GPU（iGPU）に割り当てられるシステムRAMの上限を従来の87%から93%へ引き上げました。これにより、VRAM容量がボトルネックになっていたローカルLLM推論の実用性が大きく改善します。

この記事でわかること:

今回のドライバ更新で何が変わったか
対応ハードウェアとOS
実際にどの規模のLLMが動かせるか
AMDやAppleとのメモリ活用の違い

https://www.intel.com/content/www/us/en/download/741626/intel-arc-pro-graphics-windows.html

従来の問題 — iGPUのメモリ上限がボトルネックだった

ローカルLLM推論では、モデルのウェイト全体をVRAMに載せる必要があります。70Bパラメータのモデルを4bit量子化しても40GB前後のメモリが必要で、専用VRAMが数GBしかない一般的なiGPUでは実行できません。

IntelはCore Ultra Series 2のドライバで「Shared GPU Memory Override」機能を導入し、システムRAMの87%までをiGPUのVRAMとして動的に割り当てられるようにしました。32GBのシステムであれば最大28GBをiGPUが使えるようになり、ローカルLLMの実行が現実的な選択肢として浮上してきました。今回の更新はそのさらに一歩先です。

新ドライバ（32.0.101.8517）の変更点

メモリ割り当ての上限が87%から93%に引き上げられました。

システムRAM	旧上限（87%）	新上限（93%）
32 GB	約28 GB	約30 GB
64 GB	約56 GB	約59.5 GB

この変更が適用されるiGPUはArc Pro B390とArc Pro B370です。ドライバ自体はArc Pro AシリーズおよびBシリーズの独立型GPUにも対応していますが、メモリ割り当て拡張の恩恵を受けるのはiGPUのみとなります。

対応OSはWindows 10 22H2とWindows 11（21H2〜25H2）です。対応プラットフォームはAlchemist世代とBattlemage世代のArc Graphicsで、Core UltraプロセッサはMeteor Lake、Lunar Lake、Arrow Lake-S/H、Panther Lakeが含まれます。

どの規模のモデルが動くか

Tweaktownの分析によると（参考）、今回の拡張によって以下のモデル実行が現実的になります。

32GBシステム（約30GB割り当て）: Qwen 2.5 32Bを4bit量子化で実行可能。コンテキストウィンドウにも十分な余裕がある
64GBシステム（約59.5GB割り当て）: Llama 3 70Bを4bit量子化で実行可能。KVキャッシュ用の余裕も確保できる

IntelはiGPU向けのLLM推論フレームワーク「IPEX-LLM」をオープンソースで公開しており、Ollama、vLLM、LangChainとの統合もサポートしています。

GitHub - intel/ipex-llm: Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, DeepSeek, Mixtral, Gemma, Phi, MiniCPM, Qwen-VL, MiniCPM-V, etc.) on Intel XPU (e.g., local PC with iGPU and NPU, discrete GPU such as Arc, Flex and Max); seamlessly integrate with llama.cpp, Ollama, HuggingFace, LangChain, LlamaIndex, vLLM, DeepSpeed, Axolotl, etc.

Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, DeepSeek, Mixtral, Gemma, Phi, MiniCPM, Qw…

GitHub

AMDやAppleとのメモリ活用の違い

同じiGPUのメモリ共有アーキテクチャを持つ競合と比較します。

AMDのVariable Graphics Memory（VGM）は、Ryzen AI Max+（Strix Halo）の128GB構成で約75%にあたる96GBをiGPUに割り当てられます。Intel以外の一般的なRyzen AI構成では87%が上限であり、割り当て率だけ見ればIntelの93%が現時点で最も高い数値です。ただし帯域幅には差があります。IntelのCore Ultra Series 3（Panther Lake）はLPDDR5X-9600で約150GB/sを確保するのに対し、AMD Strix Haloは256-bitバスで256GB/sを提供します。モデルがメモリに収まっても、帯域幅が狭ければ推論速度に影響します。

AppleはUnified Memory Architecture（UMA）を採用しており、CPUとGPUがメモリを物理的に共有します。割り当て上限という概念がなく、M5 Maxでは614GB/sの帯域幅を持ちます。IntelやAMDが「何%まで割り当てられるか」で競うのとは、根本的に異なるアーキテクチャです。

まとめ

Intel Arc Pro iGPU向けドライバ（32.0.101.8517）により、システムRAMの93%をVRAMとして活用できるようになりました。32GBシステムなら30B級、64GBシステムなら70B級のLLMをローカルで動かせる計算になります。専用GPUを追加せずにローカルLLMを試したい場合、Arc Pro B390やArc Pro B370搭載のマシンが有力な選択肢になりつつあります。