5GBのRAMで、音声・画像・テキストをまとめて扱えるAIが手元のマシンで動く。Google DeepMindが2026年4月に公開した「Gemma 4 E4B」は、エッジデバイス向けに設計された小型マルチモーダルモデルだ。
この記事でわかること:
- E4Bの「E」と「4B」が何を指すのか
- Per-Layer Embeddingsによるパラメータ効率の仕組み
- テキスト・画像・音声のマルチモーダル能力と128Kコンテキスト
- Ollamaでの動かし方と推論速度の目安
「E4B」という名前の意味
Gemma 4ファミリーには、E2B・E4B・26B A4B・31Bの4種類がある。E2BとE4Bの「E」は「Effective(有効)」の略だ。ファイルサイズは8Bだが、推論時に実際に動くパラメータは4.5Bに抑えた設計になっている。
この削減を可能にしているのが「Per-Layer Embeddings(PLE)」と呼ばれるアーキテクチャだ。各Transformerレイヤーに個別の小さな埋め込みテーブルを持たせることで、トークンの意味表現を豊かにしつつ、推論コストを4B相当に抑えている。埋め込みテーブルはルックアップ処理が中心のため、通常の線形演算と比べて計算負荷が低い。これにより「8Bの重みを持ちながら4B相当の速度で動く」という設計を実現している。
音声対応がエッジモデルだけに搭載されている理由
Gemma 4ファミリーの中で、音声入力に対応しているのはE2BとE4Bだけだ。26B MoEと31B Denseには音声エンコーダーが含まれない。
Googleはエッジデバイス(スマートフォン・Raspberry Pi・NVIDIA Jetson Orin Nano)での音声アシスタント用途を想定してこの設計を選んでいる。E4Bの音声エンコーダーは約300Mパラメータで、自動音声認識(ASR)と音声翻訳(AST)に対応する。処理できる音声の最大長は30秒だ。
テキストと画像については、すべてのGemma 4モデルが対応している。画像はアスペクト比や解像度が可変で、70〜1120トークンの範囲でビジュアルトークン数を調整できる。OCRや文書解析には高めの設定(560以上)、動画フレームのキャプションには低めの設定(140以下)が適している。
ベンチマークの立ち位置
Googleが公表しているE4Bのベンチマーク結果は以下のとおりだ。
| ベンチマーク | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|
| MMLU Pro | 69.4% | 67.6% |
| GPQA Diamond | 58.6% | 42.4% |
| AIME 2026(ツールなし) | 42.5% | 20.8% |
| LiveCodeBench v6 | 52.0% | 29.1% |
| MMMU Pro(ビジョン) | 52.6% | 49.7% |
特に目立つのがGPQA DiamondとAIME 2026だ。GPQA Diamondは専門家レベルの科学的推論を測る難易度の高いベンチマークで、前世代のGemma 3 27B(42.4%)を大きく上回っている。AIME 2026(数学オリンピック)では20.8%から42.5%へ約2倍になった。有効パラメータが4.5Bのモデルとしては異例の性能だ。
ビジョン系では、MedXPertQA MM(医療画像理解)が28.7%と控えめだが、MMMU Proでは52.6%を記録し、高精度な画像理解が必要なタスクにも対応できる。
Ollamaで動かす手順
Ollamaがインストールされていれば、1コマンドで実行できる。
ollama run gemma4:e4b
ダウンロードサイズは9.6GB(Q4_K_M量子化済み)。メモリの目安は5GBで、多くのノートPCや最近のスマートフォンで動作する。
推論速度の実測例として、Apple Silicon M2 UltraでMLX int4を使った場合に約38 tokens/sec、Asus ROG Phone 9 Pro(RAM 24GB)では約20 tokens/secが報告されている(参考)。
Thinkingモード(推論前に内部で考えるステップを踏む)はプロンプトの先頭に<|think|>トークンを追加することで有効になる。Ollamaではチャットテンプレートが自動処理されるため、APIから利用する場合はenable_thinking=Trueを指定するだけだ。
マルチモーダル入力では、音声や画像をテキストより先に置くのが推奨される順序だ。長いマルチターン会話では、過去のThinkingブロックを履歴に含めないよう注意する。
Apache 2.0ライセンスで商用利用可能
Gemma 4シリーズ全体がApache 2.0ライセンスで公開されている。商用利用、派生モデルの公開、ファインチューニングをすべてライセンス費用なしで行える。Hugging Face、Kaggle、Ollamaいずれからもモデルウェイトをダウンロードできるほか、Google AI Studio(31B・26B)やAndroid Studio経由でも利用できる。
Gemma 4 E4Bが向くユースケース
クラウドAPIを使わずに手元でマルチモーダル処理を完結させたい場面に向く。具体的には、ローカルでのコード補完・文書解析・音声書き起こし・OCR処理などが想定される。128Kコンテキストウィンドウを活かして、長い文書やリポジトリ全体を一度に渡す使い方もできる。
一方、Codeforces ELO(940)や長文コンテキストでのneedle-in-haystack(25.4%)は上位モデルと比べると見劣りするため、精度が最優先のタスクには31Bや26B A4Bの選択が現実的だ。
ローカルでまず動かして試す用途なら、ollama run gemma4:e4bの1コマンドで5GBの範囲に収まるマルチモーダルAIが手元に用意できる。
