Gemma 4 E2Bがスマホで動く仕組みとアプリ導入ガイド

スマートフォンだけで、クラウドを使わずにAIエージェントが動く。Googleは2026年4月2日、オープンAIモデルファミリー「Gemma 4」を公開した。4つのサイズのうち最小のE2Bは、RAM 1.5GB未満でスマートフォン上で動作する。テキスト・画像・音声をネイティブに処理し、ネットワーク接続なしにエージェントワークフローを実行できる。

この記事でわかること：

Gemma 4 E2B/E4Bがスマートフォンで動く技術的な背景
Google AI Edge GalleryのAgent Skills機能の概要
Off Gridアプリを使った導入手順とモデル選択の基準
開発者向けのLiteRT-LMとAICore活用法

Gemma 4の4つのサイズ

Bring state-of-the-art agentic skills to the edge with Gemma 4- Google Developers Blog

Google DeepMind introduces Gemma 4, a family of state-of-the-art open models designed for on-device agentic workflows. L…

developers.googleblog.com

Gemma 4はApache 2.0ライセンスで提供され、商用利用の制限はない。4つのモデルは対象ハードウェアで役割が分かれている。

モデル	実効パラメータ数	主な対象デバイス
E2B	約2.3B	スマートフォン・IoT
E4B	約4B	フラッグシップスマートフォン
26B MoE	3.8B（推論時アクティブ）	コンシューマーGPU
31B Dense	31B	ワークステーション・H100

E2BとE4Bは「エッジ向け」に位置づけられており、スマートフォンのRAMとバッテリーに最適化されている。31BモデルはArena AIのオープンモデルランキングで3位を記録しており、パラメータ数で20倍規模のモデルを上回っている。

なぜ1.5GB未満で動くのか

E2BをRAM 1.5GB未満で動かせる理由は、GoogleのランタイムライブラリLiteRTの2つの技術にある。

1つ目は2ビット・4ビット量子化だ。モデルウェイトをより少ないビット数で表現することで、メモリ使用量を大幅に削減する。2つ目はPLE（Per-Layer Embeddings）で、各レイヤーのウェイトをメモリマップ方式で読み込む仕組みだ。推論時に必要なウェイトだけを動的にロードするため、常駐メモリ量が抑えられる。

実際のパフォーマンス数値として、Raspberry Pi 5（CPU動作）ではプリフィル133トークン/秒、デコード7.6トークン/秒を記録している。NPU加速を持つQualcomm Dragonwing IQ8では、プリフィルが3,700トークン/秒、デコードが31トークン/秒まで向上する（参考）。

エッジモデルのコンテキストウィンドウは128Kトークンで、4,000トークンの入力を2つのスキルにまたがって3秒以内に処理できる。

Google AI Edge GalleryのAgent Skills

Google AI Edge Galleryは、スマートフォン上でGemma 4のエージェント機能を体験できるGoogleの公式アプリだ。AndroidとiOSの両方で提供されている。

搭載された「Agent Skills」は、外部ソースへの問い合わせ、文書の要約・フラッシュカード化、データの可視化、他のモデルとの連携など、マルチステップのワークフローをオフラインで実行できる。WikipediaへのクエリやPDFからのフラッシュカード生成も、インターネット接続なしにデバイス単体で動く。

カスタムスキルの作成もサポートしており、特定の知識ベースや外部APIとの連携を追加できる。

Off Gridアプリでの導入手順

エンドユーザーがGemma 4をより自由に使う選択肢として、オープンソースアプリ「Off Grid」がある。AndroidとmacOSに対応しており、GGUFフォーマットのモデルを複数扱える。

モデルの選択は搭載RAMで決まる。

6GB RAMのスマートフォン：E2B（Q4_K_M）を選ぶ。ダウンロードサイズは約1.3GB。Snapdragonチップで毎秒12〜20トークンの速度で動作する。

8GB RAM以上のフラッグシップ：E4B（Q4_K_M）が使える。ダウンロードサイズは約2.5GB。Snapdragon 8 Gen 3では毎秒8〜15トークンで動く（参考）。

設定でKVキャッシュをq4_0に変更すると、推論速度がおおよそ3倍になる。初回ダウンロード後はネットワーク接続を一切使わないため、機内モードでも動作を確認できる。

Off GridはGemma 4のほかに、Qwen 3.5・Llama 3.2・Phi-4といったモデルも動かせる。ビジョンAI・音声文字起こし・ツール呼び出し・文書解析もサポートしている。

開発者向けの統合方法

スマートフォンアプリへの組み込みには「LiteRT-LM」を使う。PythonパッケージとCLIツールが用意されており、Linux・macOS・Raspberry Piで動作する。関数呼び出し（function calling）と構造化JSONの出力に標準で対応しており、ツール連携が必要なエージェントアプリに向いている。

Androidアプリ向けにはもうひとつの選択肢がある。「Android AICore Developer Preview」を使うと、Androidシステムに組み込まれたGemma 4モデルをアプリから直接利用できる。ML Kit GenAI Prompt APIと組み合わせることで、アプリ内にプロンプトパイプラインを構築できる。開発環境としては、Android StudioのAgent Modeで直接Gemma 4を活用できる。

まとめ

スマートフォンで動くローカルLLMはこれまで選択肢が限られていた。Gemma 4 E2BはPLE技術と量子化の組み合わせにより、RAM 1.5GB未満という制約の中で128Kコンテキスト・ネイティブ関数呼び出し・140言語対応を同時に実現した。Google AI Edge Gallery、Off Grid、LiteRT-LMと入口が複数あり、エンドユーザーから開発者まで取り組み方が選べる。

ローカルAIの主戦場は、常に持ち歩いているスマートフォンへと広がりつつある。