スマートフォンだけで、クラウドを使わずにAIエージェントが動く。Googleは2026年4月2日、オープンAIモデルファミリー「Gemma 4」を公開した。4つのサイズのうち最小のE2Bは、RAM 1.5GB未満でスマートフォン上で動作する。テキスト・画像・音声をネイティブに処理し、ネットワーク接続なしにエージェントワークフローを実行できる。
この記事でわかること:
- Gemma 4 E2B/E4Bがスマートフォンで動く技術的な背景
- Google AI Edge GalleryのAgent Skills機能の概要
- Off Gridアプリを使った導入手順とモデル選択の基準
- 開発者向けのLiteRT-LMとAICore活用法
Gemma 4の4つのサイズ
Gemma 4はApache 2.0ライセンスで提供され、商用利用の制限はない。4つのモデルは対象ハードウェアで役割が分かれている。
| モデル | 実効パラメータ数 | 主な対象デバイス |
|---|---|---|
| E2B | 約2.3B | スマートフォン・IoT |
| E4B | 約4B | フラッグシップスマートフォン |
| 26B MoE | 3.8B(推論時アクティブ) | コンシューマーGPU |
| 31B Dense | 31B | ワークステーション・H100 |
E2BとE4Bは「エッジ向け」に位置づけられており、スマートフォンのRAMとバッテリーに最適化されている。31BモデルはArena AIのオープンモデルランキングで3位を記録しており、パラメータ数で20倍規模のモデルを上回っている。
なぜ1.5GB未満で動くのか
E2BをRAM 1.5GB未満で動かせる理由は、GoogleのランタイムライブラリLiteRTの2つの技術にある。
1つ目は2ビット・4ビット量子化だ。モデルウェイトをより少ないビット数で表現することで、メモリ使用量を大幅に削減する。2つ目はPLE(Per-Layer Embeddings)で、各レイヤーのウェイトをメモリマップ方式で読み込む仕組みだ。推論時に必要なウェイトだけを動的にロードするため、常駐メモリ量が抑えられる。
実際のパフォーマンス数値として、Raspberry Pi 5(CPU動作)ではプリフィル133トークン/秒、デコード7.6トークン/秒を記録している。NPU加速を持つQualcomm Dragonwing IQ8では、プリフィルが3,700トークン/秒、デコードが31トークン/秒まで向上する(参考)。
エッジモデルのコンテキストウィンドウは128Kトークンで、4,000トークンの入力を2つのスキルにまたがって3秒以内に処理できる。
Google AI Edge GalleryのAgent Skills
Google AI Edge Galleryは、スマートフォン上でGemma 4のエージェント機能を体験できるGoogleの公式アプリだ。AndroidとiOSの両方で提供されている。
搭載された「Agent Skills」は、外部ソースへの問い合わせ、文書の要約・フラッシュカード化、データの可視化、他のモデルとの連携など、マルチステップのワークフローをオフラインで実行できる。WikipediaへのクエリやPDFからのフラッシュカード生成も、インターネット接続なしにデバイス単体で動く。
カスタムスキルの作成もサポートしており、特定の知識ベースや外部APIとの連携を追加できる。
Off Gridアプリでの導入手順
エンドユーザーがGemma 4をより自由に使う選択肢として、オープンソースアプリ「Off Grid」がある。AndroidとmacOSに対応しており、GGUFフォーマットのモデルを複数扱える。
モデルの選択は搭載RAMで決まる。
6GB RAMのスマートフォン:E2B(Q4_K_M)を選ぶ。ダウンロードサイズは約1.3GB。Snapdragonチップで毎秒12〜20トークンの速度で動作する。
8GB RAM以上のフラッグシップ:E4B(Q4_K_M)が使える。ダウンロードサイズは約2.5GB。Snapdragon 8 Gen 3では毎秒8〜15トークンで動く(参考)。
設定でKVキャッシュをq4_0に変更すると、推論速度がおおよそ3倍になる。初回ダウンロード後はネットワーク接続を一切使わないため、機内モードでも動作を確認できる。
Off GridはGemma 4のほかに、Qwen 3.5・Llama 3.2・Phi-4といったモデルも動かせる。ビジョンAI・音声文字起こし・ツール呼び出し・文書解析もサポートしている。
開発者向けの統合方法
スマートフォンアプリへの組み込みには「LiteRT-LM」を使う。PythonパッケージとCLIツールが用意されており、Linux・macOS・Raspberry Piで動作する。関数呼び出し(function calling)と構造化JSONの出力に標準で対応しており、ツール連携が必要なエージェントアプリに向いている。
Androidアプリ向けにはもうひとつの選択肢がある。「Android AICore Developer Preview」を使うと、Androidシステムに組み込まれたGemma 4モデルをアプリから直接利用できる。ML Kit GenAI Prompt APIと組み合わせることで、アプリ内にプロンプトパイプラインを構築できる。開発環境としては、Android StudioのAgent Modeで直接Gemma 4を活用できる。
まとめ
スマートフォンで動くローカルLLMはこれまで選択肢が限られていた。Gemma 4 E2BはPLE技術と量子化の組み合わせにより、RAM 1.5GB未満という制約の中で128Kコンテキスト・ネイティブ関数呼び出し・140言語対応を同時に実現した。Google AI Edge Gallery、Off Grid、LiteRT-LMと入口が複数あり、エンドユーザーから開発者まで取り組み方が選べる。
ローカルAIの主戦場は、常に持ち歩いているスマートフォンへと広がりつつある。
