128GB RAMのローカルLLMで何が変わるか用途別モデル選びガイド

128GBのRAMが、ローカルLLMの「動かせるモデル」を別次元に引き上げます。

この記事では、128GBというRAM量がなぜ重要な分岐点なのかを数字で示しながら、用途別に選ぶべきモデルと、すぐ試せる実行環境を解説します。

この記事でわかること：

128GB RAMで初めて現実的になるモデル（70B・141B MoEなど）
4bit量子化を使った実際のVRAM消費量と品質への影響
コーディング支援・数学・長文処理・ビジョンの用途別モデル選び
MacとWindowsで128GBを活かすセットアップの違い

RAMが128GBになると「できること」の幅が変わる

ローカルLLMを動かす際、もっとも大きな制約はメモリ容量です。モデルのパラメータをロードするために必要なVRAM（またはApple Siliconの場合はユニファイドメモリ）が足りなければ、モデルは起動できません。

RAMが16〜32GBの環境では、4bit量子化した7〜13Bクラスのモデルが現実的な選択肢です。64GBまで増やすと32Bクラスが視野に入ります。そして128GBに到達すると、70B以上のモデルが本格的に扱えるようになります。

OS・アプリ・バッファが合計20〜40GB程度を占めるため、128GB環境では実際に90〜108GB程度をモデルに充てられます。4bit量子化のLlama 3.1 70Bに必要なVRAMは約45GB、Mixtral 8x22B（総パラメータ141B・MoEアーキテクチャ）でも約85GBです。どちらも単体で収まる計算になります。

4bit量子化でVRAMを1/4以下に抑える

FP16（無圧縮）では10億パラメータあたり約2GBのVRAMが必要です。Llama 3.1 70Bをそのまま載せると約148GBになり、128GB環境では足りません。ここで量子化が機能します。

Q4_K_M形式に変換すると、同モデルのVRAMが約45GBに収まります。品質の劣化は2〜5%程度で、人間が実際の回答を見て判別するのはほぼ困難なレベルです（参考）。

Ollamaを使えば量子化済みモデルを自動でダウンロードして実行できるため、変換作業を自分で行う必要はありません。

MoEモデルで大規模パラメータを効率よく扱う

MoE（Mixture of Experts）は、異なる役割を持つ「エキスパート」ブロックを複数持ち、推論時には入力に応じた一部のみを活性化するアーキテクチャです。MixtralやQwen 3.5などが採用しています。

Mixtral 8x22Bはパラメータ総数141Bですが、4bit量子化で約85GBに収まります。128GB環境なら、ChatGPTと同水準の品質を持つモデルをAPIコストなしでローカル実行できます。

用途別のモデル選び

コーディング支援・エージェント用途にはQwen 2.5 72B Instructが有力です。コード生成・修正・説明の全域をカバーし、ツール呼び出し（function calling）にも対応しています。4bit量子化で約45GBです。

数学・論理推論ではDeepSeek-R1 70Bが選択肢になります。強化学習を用いた推論トレーニングを施しており、ステップバイステップの問題解決を得意とします。

長文コンテキスト処理にはLlama 3.1 70B（コンテキスト長128K）が安定しています。RAGを使わず大量のドキュメントを直接コンテキストに流し込む用途でも、128GBなら余裕を持って扱えます。

ビジョン（画像認識）にはGemma 3 27Bなどのマルチモーダルモデルが使えます。27Bクラスは約17GBで動き、128GB環境では複数モデルを同時展開する余裕もあります。

MacとWindowsで128GBの使い方が変わる

Mac M4 Maxの128GBユニファイドメモリは、CPUとGPUが同じメモリ空間を共有する設計です。「GPU専用VRAM」という概念がないため、128GB全体をモデルに使えます。MLXバックエンドを利用したOllamaで70Bモデルを動かすと14〜17 tok/sの速度が出ます。消費電力は30〜60W程度です（参考）。

一方、WindowsのRTX 5090（VRAM 32GB）は8〜32Bモデルの推論で213 tok/sと圧倒的な速度を発揮しますが、70Bモデルを1枚では動かせません。システムRAMへのオフロードは速度が激減するため、2枚構成が必要です。

128GBを持つMacは「巨大モデルを静かに・省電力で動かす」ことに特化した環境です。速度を求めるなら32B以下でWindows、容量を生かして70B以上を動かすならMacという使い分けになります。

実行環境の選び方

https://ollama.com

Ollamaはもっとも手軽に始められるツールです。ollama run llama3.1:70b などのコマンド一行でモデルをダウンロードして実行できます。NVIDIA・AMD・Apple Silicon全対応で、量子化済みモデルのライブラリも充実しています。

GUIで操作したい場合はLM Studioが向いています。Hugging Faceからモデルを検索・ダウンロード・チャット実行までを画面上で完結でき、コマンドライン不要です。

RAMとVRAMの配分を細かく制御したい場合や、CPU推論を最大化したい場合はllama.cppが選択肢になります。GGUFフォーマットの量子化モデルを直接扱え、パラメータを明示的に指定できます。

128GBで開かれる「API不要のローカルAI」

128GBのRAMは、数年前なら研究機関や企業サーバー向けのスペックでした。現在はM4 Max MacBook ProやAMD Ryzen AI Max搭載のミニPCで個人が入手できます。

このRAM量があれば、GPT-4クラスの品質を持つモデルをAPI契約なしで24時間動かせます。データをクラウドに送らないため、機密コードや社内文書を扱う場面でも安心して使えます。

どのモデルを選ぶかは用途次第ですが、「コーディング支援ならQwen 2.5 72B、論理推論ならDeepSeek-R1 70B、長文処理ならLlama 3.1 70B」という組み合わせが現時点でのバランスの取れた出発点です。