Gemma 4 12B登場 16GBPCで動く音声・動画AI

16GBメモリのノートPCだけで、音声・画像・動画を扱うマルチモーダルAIが動く時代が来ました。

Googleは2026年6月3日、オープンウェイトの「Gemma 4 12B」を公開しました。従来は別途エンコーダーが必要だったマルチモーダル処理を、LLM本体に直接流し込む設計に変えています。256Kコンテキスト、関数呼び出し、推論モードまで揃い、オフライン環境でも実務に使える構成です。

この記事でわかること

Gemma 4 12Bの新アーキテクチャと性能
16GB環境で動かすための条件と制限
ローカル実行・エージェント開発の始め方

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

エンコーダーレス設計がローカル実行を現実にした

Gemma 4 12Bの最大の変化は、マルチモーダル入力の処理方式です。従来のマルチモーダルモデルは、画像や音声を別のエンコーダーで変換してからLLMに渡します。この方式は推論のたびにレイテンシとメモリ消費が増え、16GB級のマシンでは実用が難しくなります。

Gemma 4 12Bは「Unified」と呼ばれるエンコーダーレス設計を採用しました。視覚入力は48×48ピクセルのパッチを、3500万パラメータの軽量埋め込みモジュール（単一の行列演算）でLLMの入力空間へ直接投影します。音声入力は16000Hzの波形を40ミリ秒フレーム（640浮動小数点）に分割し、線形射影でテキストトークンと同じ次元へ変換します。音声エンコーダー自体を削除した点が、他のGemma 4モデルとの大きな違いです（Google Developers Blog）。

パラメータ数は119.5億、Apache 2.0ライセンスで公開されています。Google公式の説明では、16GBのVRAMまたはユニファイドメモリがあればローカル実行が可能です。ダウンロードと推論コストは無料で、機内や閉域ネットワークでも使えます。

26B級に近い性能を、半分以下のメモリで

Gemma 4 12Bは、Gemma 4ファミリー内でE4B（エッジ向け）と26B MoE（大規模）の中間に位置づけられています。Googleは標準ベンチマークで26B MoEに近い性能を示すと発表しています。Hugging Face上のモデルカード（unsloth/gemma-4-12b）では、MMLU Pro 77.2%、AIME 2026 77.5%、LiveCodeBench v6 72.0%、GPQA Diamond 78.8%と記載されています。26B MoEのMMLU Pro 82.6%やAIME 2026 88.3%には及びませんが、メモリフットプリントは半分以下に抑えられています。

コンテキスト長は256Kトークンです。長いコードリポジトリ、財務報告書、会議の文字起こしを1プロンプトで渡せます。関数呼び出し（Function Calling）とシステムプロンプトにネイティブ対応しており、ツール連携型のエージェント構築に向いています。推論前に段階的に思考する「thinking」モードや、レイテンシ低減のMulti-Token Prediction（MTP）ドラフターにも対応しています。

音声認識、話者分離（diarization）、動画理解、コーディングを1モデルで扱える点が、実務上の強みです。Google Developers Blogでは、Gemma 4 12B自身を推論エンジンに使い、画像処理アプリを生成するデモも公開されています。

音声30秒・動画60秒の制限に注意

マルチモーダル対応は万能ではありません。Hugging FaceのモデルカードとUnslothのドキュメントによると、音声入力は最大30秒、動画は1秒あたり1フレームで処理した場合に最大60秒までです。長時間の動画や大量の音声アーカイブをそのまま渡す用途には向きません。チャンク分割や要約の連鎖といった前処理が必要になります。

また、Gemma 4 12Bは推論エンジンであり、静的な知識データベースではありません。広範な事実検索が主目的なら、RAG（Retrieval-Augmented Generation）パイプラインとの組み合わせが前提になります。

今日から試せる実行環境

重みはHugging FaceとKaggleから即時ダウンロードできます。推論フレームワークはvLLM、SGLang、MLX、llama.cpp、Hugging Face Transformersなど主要ツールに対応しています。ファインチューニングはUnslothなどで行えます。LoRAやフルチューニングでは、視覚・音声・テキストが同一重みを共有するため、マルチモーダル全体を1パスで更新できる点がエンコーダーレス設計の利点です。

ローカルAPIサーバーとして使う場合は、LiteRT-LMのlitert-lm serveコマンドでOpenAI互換サーバーを起動できます。Continue、Aider、OpenCodeなど既存のエージェントツールと接続可能です。macOS向けにはGoogle AI Edge Galleryのデスクトップ版と、音声入力向けのEloquentアプリも提供されています。

エージェント開発向けには、GitHubのGemma Skills Repositoryも公開されています。gemma-devスキルでGemmaモデルを使ったアプリ構築を支援します。OllamaやLM Studioからも数クリックで試せます。

クラウド展開が必要な場合は、Google CloudのModel Garden、Cloud Run、GKE経由でエンドポイントを立てられます。

E4Bや26B MoEとの使い分け

Gemma 4ファミリー全体は2026年4月に公開され、E2B・E4B・26B MoE・31B Denseの4サイズが揃っています。Gemma 4 12Bはこの中で唯一のエンコーダーレス中規模モデルです。

E2B・E4Bは推論時に有効パラメータが23億・45億に抑えられ、スマートフォンやRaspberry Pi向けです。コンテキストは128K、音声入力は従来型の300Mパラメータ音声エンコーダー経由です。Gemma 4 12Bは256Kコンテキストと中規模モデル初のネイティブ音声入力を両立し、ノートPC向けに最適化されています。

26B MoEは推論時に38億パラメータだけを活性化し、最高性能を狙う用途向けです。31B Denseはファインチューニングの基盤として位置づけられ、音声入力は非対応です。オフラインでマルチモーダルエージェントを動かしたいならGemma 4 12B、最高精度を求めるなら26B MoEまたは31B Dense、モバイル端末ならE4Bという棲み分けになります。

導入を検討するときの視点

Gemma 4 12Bは、データを外部APIに送れない環境、オフライン作業、エッジ推論のコスト削減に向いたモデルです。エンコーダーレス設計により、16GB級ハードウェアで音声・画像・動画を扱える点が実用的なブレークスルーです。

一方、長時間メディアの一括処理や、クラウドAPI並みの最高精度が必要な場面では限界があります。自社の要件がプライバシー重視のローカル推論とエージェント構築に合致するかを確認したうえで、Hugging Faceから重みを取得し、LiteRT-LMやOllamaで動作検証するのが最短ルートです。