APIキーもクラウドも使わずに、Chromeブラウザの中だけでAIエージェントが動く時代が来た。

GoogleのオープンソースモデルGemma 4をWebGPUで実行するChrome拡張が、2026年4月に相次いで登場している。ページの要約、タブの切り替え、フォーム入力まで自然言語で指示でき、入力内容はすべてデバイス内で処理されて外部に送られない。

この記事でわかること:

  • Gemma 4 E2BをブラウザでローカルRunする仕組み
  • Gemma GemとTransformers.js版拡張の機能と違い
  • インストール手順と必要な動作環境
  • ページ操作から履歴検索まで使えるツール一覧

Gemma 4 E2Bとは

Gemma 4はGoogleが2026年4月2日に公開したオープンソース言語モデルのファミリーです。Apache 2.0ライセンスで提供され、E2B・E4B・26B MoE・31B Denseの4サイズがあります。

E2BはMixture of Experts(MoE)設計を採用しており、1トークンの処理で実際に使うパラメータが2B相当に絞られます。モデルファイルのサイズは約500MBで、WebGPU対応のGPUがあれば現代的なPCのブラウザ上でも動かせる軽さです。ツール呼び出し(tool calling)をネイティブでサポートしており、エージェント用途に設計されています。

Gemma Gem:ページを読み・クリック・入力まで操作できる

Gemma Gemは、Gemma 4 E2BをChromeのWebGPUで動かすブラウザ拡張です。2026年4月5日にGitHubで公開され、4月28日時点で854スターを集めています。

APIキーは不要で、モデルは初回起動時に自動でダウンロードされます。以降はキャッシュを使うため、完全オフラインでも動作します。任意のページ右下のGemアイコンをクリックするとチャット画面が開き、自然言語で指示を入力するだけで使えます。

課題解決:クラウドAIに送れないデータがある

ChatGPTやClaudeのブラウザ拡張は、ページの内容をクラウドAPIに送ってから処理します。社内ドキュメント、医療記録、個人の閲覧履歴など、外部に送りたくないデータを扱う場面では使いにくい。

Gemma Gemはすべての推論をChromeブラウザ内で完結させます。WebGPUを使ってGPUで並列処理するため、Gemma 4 E2Bクラスのモデルであれば実用的な速度で動きます。

使えるブラウザ操作ツール

Gemma Gemには6つのツールが用意されており、エージェントが必要に応じて自動で呼び出します。

read_page_content
現在のページのテキストやHTMLをCSSセレクタで指定して取得します。「この記事を3行で要約して」「この価格表の内容を教えて」といった指示に対応します。

take_screenshot
表示中の画面をPNGでキャプチャします。テキストだけでは取れない視覚情報をエージェントのコンテキストに渡せます。

click_element
CSSセレクタで指定した要素をクリックします。「送信ボタンを押して」「次のページに進んで」のような指示で動きます。

type_text
入力フィールドに文字を入力します。フォームへの自動入力に使います。

scroll_page
ページを指定ピクセル数だけ上下にスクロールします。

run_javascript
任意のJavaScriptをページコンテキストで実行します。DOM操作を含む複雑なタスクを自動化する際に使います。

料金と動作環境

Gemma GemはMITライセンスの無料OSSです。モデルのGemma 4はApache 2.0ライセンスで提供されています。

動作に必要な環境は以下のとおりです。

  • Chrome 113以上(WebGPU対応)
  • WebGPU対応GPU(主要なゲーミングGPUや近年の内蔵GPU)
  • E2B使用時:約500MBのディスク空き容量
  • E4B使用時:約1.5GBのディスク空き容量

設定画面からE2BとE4Bを切り替えられます。まずE2Bで試して、精度が不十分な場合にE4Bに移行する運用が現実的です。

インストール手順

Chrome Web Storeには現時点で公開されていないため、ソースからビルドして手動で読み込みます。

git clone https://github.com/kessler/gemma-gem
cd gemma-gem
pnpm install
pnpm build

ビルドが完了したら、chrome://extensionsを開いて「デベロッパーモード」を有効にし、「パッケージ化されていない拡張機能を読み込む」から.output/chrome-mv3-dev/を選択します。

インストール後、任意のページにGemアイコンが表示されます。初回はモデルのダウンロードに数分かかりますが、次回からは即座に起動します。

類似拡張との違い:gemma4-browser-extension

同じくGemma 4 E2BとWebGPUを使った別のChrome拡張としてnico-martin/gemma4-browser-extensionがあります。2025年11月に公開され、4月28日時点で496スターを集めています。

Gemma GemとはMLライブラリが異なり、こちらはTransformers.jsをバックエンドに使っています。主な特徴は履歴のセマンティック検索とRAGです。閲覧したページをベクターDBに保存し、「先週読んだAI関連の記事を探して」のような自然言語クエリで検索できます。ページのコンテンツを構造化して取得し、関連するセクションだけをモデルのコンテキストに渡すRAG設計になっています。

Gemma GemはクリックやJavaScript実行などDOM操作に強みがあり、こちらは情報収集と履歴検索に特化しています。どちらもローカルで完結する点は共通しています。

まとめ

Gemma 4 E2BとWebGPUの組み合わせにより、クラウドに依存しないAIブラウザ拡張が実用段階に入りました。Gemma GemはページのDOM操作からJavaScript実行まで幅広く対応しており、プライバシーを保ちながら実際のブラウザ操作を自動化できます。履歴検索を重視する場合はgemma4-browser-extensionが選択肢に入ります。

APIキーの登録も月額料金も不要です。Chrome 113以上とWebGPU対応のGPUがあれば今日から試せます。