Mac版AI Edge GalleryでGemma 4をオフライン動作

クラウドに送らず、Mac上でGemmaを動かせる時代が来ました。

2026年6月3日、GoogleはローカルAIアプリ「Google AI Edge Gallery」のmacOS版を公開しました。あわせて中規模オープンモデル「Gemma 4 12B」と、音声入力アプリ「Google AI Edge Eloquent」のMac版も同日にリリースしています。Appleシリコン搭載Macなら、モデルをダウンロードした後はインターネット接続なしでチャットや要約、コード生成まで試せます。

この記事でわかること

Google AI Edge GalleryがMacで何をできるか
対応モデルと動作要件
OllamaやLM Studioとの違い
Gemma 4 12Bの位置づけと実用性

ローカルLLMを探すMacユーザーに届く選択肢

ChatGPTやGeminiのようなクラウド型AIは高性能ですが、会話内容はサーバーに送られます。機密メモや社内資料を扱う場面では、データが端末外に出ない仕組みが求められます。

MacではOllamaやLM Studioを入れ、Hugging Face上のモデルを選んで動かす方法が一般的です。一方で、GoogleはGemmaファミリー向けに最適化した実行基盤「LiteRT-LM」と、それを体験する公式アプリを用意してきました。これまでAndroidとiOS向けだったAI Edge GalleryがmacOSに対応し、GUIだけでGemmaを試せる環境が整いました。

ExtremeTechは、Appleのクラウド依存型AI戦略に対し、Googleがローカル実行で差別化を図っていると報じています（参考）。Apple Intelligenceが端末内処理を謳う一方、Siri刷新の遅れなどが話題になる中、GoogleはオープンウェイトのGemmaを前面に出しています。

Google AI Edge Galleryとは

https://dl.google.com/google-ai-edge-gallery/macos/dmg/GoogleAIEdgeGallery-0.1.0.dmg

Google AI Edge Galleryは、端末上でオープンソースの大規模言語モデル（LLM）を動かす実験的なベータアプリです。推論はすべて端末内で完結し、プロンプトや画像、音声データをサーバーに送りません。GitHubリポジトリはApache 2.0ライセンスで公開されており、macOS版の配布も同リポジトリから案内されています。

アプリ内の主な機能は次のとおりです。

AI Chat（Thinking Mode）: 複数ターンの会話に対応。Gemma 4系では推論過程を表示するThinking Modeも使えます
Prompt Lab: 要約、トーン変更、コードスニペット生成など、単発タスク向けのテンプレートとパラメータ調整
Ask Image: カメラや写真から物体認識や画像に関する質問
Audio Scribe: 音声の文字起こしと翻訳
Agent Skills: Wikipediaや地図などのツールを組み合わせ、エージェント的な動きを試せる
Model Management & Benchmark: モデルのダウンロード管理と、端末ごとの性能計測

Google Developers Blogのデモでは、Gemma 4 12Bが自然言語の指示からPythonコードを生成し、ローカルで実行してグラフ画像を出力する例が紹介されています。3Dレンダリングのような複雑なコーディングでも、依存関係の整理から自己修正まで1ターンで進むケースがあると説明されています。

macOS版の対応モデルと要件

macOS版で選べるのは、Google製の指示追従型モデル（it）5種類のみです。Ollamaのように任意のモデルを入れる方式ではありません。

Gemma-4-12B-it
Gemma-4-E2B-it
Gemma-4-E4B-it
Gemma-3n-E2B-it
Gemma-3n-E4B-it

動作要件は、Apple M1以降のAppleシリコン搭載MacとmacOS 14.0以降です。App Store版の説明でも同条件が示されています。モデルはアプリからダウンロードし、容量と用途に応じて切り替えます。軽い作業ならE2BやE4B、高度な推論やコーディングなら12Bが候補になります。

Gemma 4 12Bが担う役割

同日リリースされたGemma 4 12Bは、約120億パラメータの密結合マルチモーダルモデルです。従来のマルチモーダルAIが画像や音声用のエンコーダーを別途持つのに対し、Gemma 4 12Bはエンコーダーレス（Unified）設計で、画像パッチや音声波形をLLM本体に直接流し込みます。テキスト・画像・音声を扱え、コンテキスト長は256Kトークンです。

Googleは、12Bでも26BのMixture of Experts（MoE）モデルに近いベンチマーク性能を、半分以下のメモリで実現できると説明しています。ローカル実行の目安は16GBのVRAMまたはユニファイドメモリで、Apache 2.0ライセンスで公開されています。Multi-Token Prediction（MTP）による下書きモデルも用意され、応答の遅延低減を狙っています。

9to5Macの報道では、フロンティア各社のローカル向けモデルが20億〜90億パラメータ帯に収まる傾向がある一方、Googleは12Bでも実用ラインに乗せたと整理しています（参考）。

OllamaやLM Studioとの違い

観点	Google AI Edge Gallery	Ollama / LM Studio
モデル選択	Google製Gemma 5種に限定	互換モデルを自由に追加
最適化	LiteRT-LM向けに調整	汎用ランタイム
体験	チャットやAgent Skillsなど機能が一体	主にモデル実行基盤
プライバシー	端末内完結	端末内完結（設定次第）

Ollamaでもgemma4:12bは利用できますが、GitHub上の報告ではAppleシリコン環境で応答が極端に遅い、空応答が出るといった不具合が挙がっています。Google公式スタックのGalleryやLiteRT-LM CLIは、Gemma 4向けにチューニングされた選択肢として位置づけられます。開発者向けには、LiteRT-LMのserveコマンドでOpenAI互換のローカルエンドポイントを立て、ContinueやAiderなど既存ツールから接続する方法も公開されています。

あわせて公開されたEloquent

https://ai.google.dev/edge

同じGoogle AI Edgeスタックを使う音声入力アプリ「Google AI Edge Eloquent」もMac版が出ました。音声の文字起こしと文章整形を端末内で行い、Gemma 4 12Bを使ったVoice Editで「要約して」「ヒンディー語に翻訳して」といった音声指示による編集にも対応します。Googleは、従来モデル比で指示追従の精度が60%以上向上したと説明しています。Galleryと併用すれば、入力から分析までをローカルで完結させやすくなります。

導入時の注意点

AI Edge Galleryは実験的ベータです。macOS版のDMGは0.1.0と初期段階の番号が付いており、機能追加と不具合修正が続く想定で使うのが妥当です。12Bモデルは16GBメモリで動きますが、他アプリと同時起動するとメモリ不足になりやすいです。24GB以上あると余裕が出ます。

モデル限定は弱点でもあります。LlamaやMistralなど他社モデルを試したい場合は、引き続きOllamaが適しています。Gemma中心にローカルAIを試したいMacユーザーにとって、Galleryはインストールからベンチマークまで一通り触れる公式ショーケースです。データを外に出さず、オフラインでGemma 4の推論やコーディングを体験したいなら、まずダウンロードしてPrompt LabとAI Chatから試すのが近道です。