Gemma 4 E4B　5GBで動くマルチモーダルAIのローカル活用術

5GBのRAMで、音声・画像・テキストをまとめて扱えるAIが手元のマシンで動く。Google DeepMindが2026年4月に公開した「Gemma 4 E4B」は、エッジデバイス向けに設計された小型マルチモーダルモデルだ。

この記事でわかること：

E4Bの「E」と「4B」が何を指すのか
Per-Layer Embeddingsによるパラメータ効率の仕組み
テキスト・画像・音声のマルチモーダル能力と128Kコンテキスト
Ollamaでの動かし方と推論速度の目安

google/gemma-4-E4B-it · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

「E4B」という名前の意味

Gemma 4ファミリーには、E2B・E4B・26B A4B・31Bの4種類がある。E2BとE4Bの「E」は「Effective（有効）」の略だ。ファイルサイズは8Bだが、推論時に実際に動くパラメータは4.5Bに抑えた設計になっている。

この削減を可能にしているのが「Per-Layer Embeddings（PLE）」と呼ばれるアーキテクチャだ。各Transformerレイヤーに個別の小さな埋め込みテーブルを持たせることで、トークンの意味表現を豊かにしつつ、推論コストを4B相当に抑えている。埋め込みテーブルはルックアップ処理が中心のため、通常の線形演算と比べて計算負荷が低い。これにより「8Bの重みを持ちながら4B相当の速度で動く」という設計を実現している。

音声対応がエッジモデルだけに搭載されている理由

Gemma 4ファミリーの中で、音声入力に対応しているのはE2BとE4Bだけだ。26B MoEと31B Denseには音声エンコーダーが含まれない。

Googleはエッジデバイス（スマートフォン・Raspberry Pi・NVIDIA Jetson Orin Nano）での音声アシスタント用途を想定してこの設計を選んでいる。E4Bの音声エンコーダーは約300Mパラメータで、自動音声認識（ASR）と音声翻訳（AST）に対応する。処理できる音声の最大長は30秒だ。

テキストと画像については、すべてのGemma 4モデルが対応している。画像はアスペクト比や解像度が可変で、70〜1120トークンの範囲でビジュアルトークン数を調整できる。OCRや文書解析には高めの設定（560以上）、動画フレームのキャプションには低めの設定（140以下）が適している。

ベンチマークの立ち位置

Googleが公表しているE4Bのベンチマーク結果は以下のとおりだ。

ベンチマーク	Gemma 4 E4B	Gemma 3 27B
MMLU Pro	69.4%	67.6%
GPQA Diamond	58.6%	42.4%
AIME 2026（ツールなし）	42.5%	20.8%
LiveCodeBench v6	52.0%	29.1%
MMMU Pro（ビジョン）	52.6%	49.7%

特に目立つのがGPQA DiamondとAIME 2026だ。GPQA Diamondは専門家レベルの科学的推論を測る難易度の高いベンチマークで、前世代のGemma 3 27B（42.4%）を大きく上回っている。AIME 2026（数学オリンピック）では20.8%から42.5%へ約2倍になった。有効パラメータが4.5Bのモデルとしては異例の性能だ。

ビジョン系では、MedXPertQA MM（医療画像理解）が28.7%と控えめだが、MMMU Proでは52.6%を記録し、高精度な画像理解が必要なタスクにも対応できる。

Ollamaで動かす手順

gemma4:e4b

Gemma 4 models are designed to deliver frontier-level performance at each size. They are well-suited for reasoning, agen…

ollama.com

Ollamaがインストールされていれば、1コマンドで実行できる。

ollama run gemma4:e4b

ダウンロードサイズは9.6GB（Q4_K_M量子化済み）。メモリの目安は5GBで、多くのノートPCや最近のスマートフォンで動作する。

推論速度の実測例として、Apple Silicon M2 UltraでMLX int4を使った場合に約38 tokens/sec、Asus ROG Phone 9 Pro（RAM 24GB）では約20 tokens/secが報告されている（参考）。

Thinkingモード（推論前に内部で考えるステップを踏む）はプロンプトの先頭に<|think|>トークンを追加することで有効になる。Ollamaではチャットテンプレートが自動処理されるため、APIから利用する場合はenable_thinking=Trueを指定するだけだ。

マルチモーダル入力では、音声や画像をテキストより先に置くのが推奨される順序だ。長いマルチターン会話では、過去のThinkingブロックを履歴に含めないよう注意する。

Apache 2.0ライセンスで商用利用可能

Gemma 4シリーズ全体がApache 2.0ライセンスで公開されている。商用利用、派生モデルの公開、ファインチューニングをすべてライセンス費用なしで行える。Hugging Face、Kaggle、Ollamaいずれからもモデルウェイトをダウンロードできるほか、Google AI Studio（31B・26B）やAndroid Studio経由でも利用できる。

Gemma 4 E4Bが向くユースケース

クラウドAPIを使わずに手元でマルチモーダル処理を完結させたい場面に向く。具体的には、ローカルでのコード補完・文書解析・音声書き起こし・OCR処理などが想定される。128Kコンテキストウィンドウを活かして、長い文書やリポジトリ全体を一度に渡す使い方もできる。

一方、Codeforces ELO（940）や長文コンテキストでのneedle-in-haystack（25.4%）は上位モデルと比べると見劣りするため、精度が最優先のタスクには31Bや26B A4Bの選択が現実的だ。

ローカルでまず動かして試す用途なら、ollama run gemma4:e4bの1コマンドで5GBの範囲に収まるマルチモーダルAIが手元に用意できる。