スマートフォンだけで、クラウドを使わずにAIエージェントが動く。Googleは2026年4月2日、オープンAIモデルファミリー「Gemma 4」を公開した。4つのサイズのうち最小のE2Bは、RAM 1.5GB未満でスマートフォン上で動作する。テキスト・画像・音声をネイティブに処理し、ネットワーク接続なしにエージェントワークフローを実行できる。

この記事でわかること:

  • Gemma 4 E2B/E4Bがスマートフォンで動く技術的な背景
  • Google AI Edge GalleryのAgent Skills機能の概要
  • Off Gridアプリを使った導入手順とモデル選択の基準
  • 開発者向けのLiteRT-LMとAICore活用法

Gemma 4の4つのサイズ

Gemma 4はApache 2.0ライセンスで提供され、商用利用の制限はない。4つのモデルは対象ハードウェアで役割が分かれている。

モデル 実効パラメータ数 主な対象デバイス
E2B 約2.3B スマートフォン・IoT
E4B 約4B フラッグシップスマートフォン
26B MoE 3.8B(推論時アクティブ) コンシューマーGPU
31B Dense 31B ワークステーション・H100

E2BとE4Bは「エッジ向け」に位置づけられており、スマートフォンのRAMとバッテリーに最適化されている。31BモデルはArena AIのオープンモデルランキングで3位を記録しており、パラメータ数で20倍規模のモデルを上回っている。

なぜ1.5GB未満で動くのか

E2BをRAM 1.5GB未満で動かせる理由は、GoogleのランタイムライブラリLiteRTの2つの技術にある。

1つ目は2ビット・4ビット量子化だ。モデルウェイトをより少ないビット数で表現することで、メモリ使用量を大幅に削減する。2つ目はPLE(Per-Layer Embeddings)で、各レイヤーのウェイトをメモリマップ方式で読み込む仕組みだ。推論時に必要なウェイトだけを動的にロードするため、常駐メモリ量が抑えられる。

実際のパフォーマンス数値として、Raspberry Pi 5(CPU動作)ではプリフィル133トークン/秒、デコード7.6トークン/秒を記録している。NPU加速を持つQualcomm Dragonwing IQ8では、プリフィルが3,700トークン/秒、デコードが31トークン/秒まで向上する(参考)。

エッジモデルのコンテキストウィンドウは128Kトークンで、4,000トークンの入力を2つのスキルにまたがって3秒以内に処理できる。

Google AI Edge GalleryのAgent Skills

Google AI Edge Galleryは、スマートフォン上でGemma 4のエージェント機能を体験できるGoogleの公式アプリだ。AndroidとiOSの両方で提供されている。

搭載された「Agent Skills」は、外部ソースへの問い合わせ、文書の要約・フラッシュカード化、データの可視化、他のモデルとの連携など、マルチステップのワークフローをオフラインで実行できる。WikipediaへのクエリやPDFからのフラッシュカード生成も、インターネット接続なしにデバイス単体で動く。

カスタムスキルの作成もサポートしており、特定の知識ベースや外部APIとの連携を追加できる。

Off Gridアプリでの導入手順

エンドユーザーがGemma 4をより自由に使う選択肢として、オープンソースアプリ「Off Grid」がある。AndroidとmacOSに対応しており、GGUFフォーマットのモデルを複数扱える。

モデルの選択は搭載RAMで決まる。

6GB RAMのスマートフォン:E2B(Q4_K_M)を選ぶ。ダウンロードサイズは約1.3GB。Snapdragonチップで毎秒12〜20トークンの速度で動作する。

8GB RAM以上のフラッグシップ:E4B(Q4_K_M)が使える。ダウンロードサイズは約2.5GB。Snapdragon 8 Gen 3では毎秒8〜15トークンで動く(参考)。

設定でKVキャッシュをq4_0に変更すると、推論速度がおおよそ3倍になる。初回ダウンロード後はネットワーク接続を一切使わないため、機内モードでも動作を確認できる。

Off GridはGemma 4のほかに、Qwen 3.5・Llama 3.2・Phi-4といったモデルも動かせる。ビジョンAI・音声文字起こし・ツール呼び出し・文書解析もサポートしている。

開発者向けの統合方法

スマートフォンアプリへの組み込みには「LiteRT-LM」を使う。PythonパッケージとCLIツールが用意されており、Linux・macOS・Raspberry Piで動作する。関数呼び出し(function calling)と構造化JSONの出力に標準で対応しており、ツール連携が必要なエージェントアプリに向いている。

Androidアプリ向けにはもうひとつの選択肢がある。「Android AICore Developer Preview」を使うと、Androidシステムに組み込まれたGemma 4モデルをアプリから直接利用できる。ML Kit GenAI Prompt APIと組み合わせることで、アプリ内にプロンプトパイプラインを構築できる。開発環境としては、Android StudioのAgent Modeで直接Gemma 4を活用できる。

まとめ

スマートフォンで動くローカルLLMはこれまで選択肢が限られていた。Gemma 4 E2BはPLE技術と量子化の組み合わせにより、RAM 1.5GB未満という制約の中で128Kコンテキスト・ネイティブ関数呼び出し・140言語対応を同時に実現した。Google AI Edge Gallery、Off Grid、LiteRT-LMと入口が複数あり、エンドユーザーから開発者まで取り組み方が選べる。

ローカルAIの主戦場は、常に持ち歩いているスマートフォンへと広がりつつある。