最速AIコーディング Gemini 3.5 Flashの実力と課題

Googleが掲げる「最速のエージェント向けコーディングモデル」は、実際の開発現場でどこまで通用するのか。

この記事では、Google I/O 2026で発表されたGemini 3.5 Flashと開発プラットフォームAntigravity 2.0の公式スペックと、実プロジェクトでの検証結果を整理します。

この記事でわかること

Gemini 3.5 FlashとAntigravity 2.0の主な変更点
Googleが公表するベンチマーク数値と競合モデルとの位置づけ
実プロジェクト検証で報告された速度の強みと精度の弱点
Claude CodeやCodexと比べたAntigravityのUI面の差

Gemini 3.5 Flashとは何が変わったか

Googleは2026年5月19日のI/O 2026で、Gemini 3.5ファミルの第一弾としてGemini 3.5 Flashを公開しました。位置づけは「エージェントとコーディング向けのフロンティア性能」です。従来のチャット中心の使い方から、複数ステップのワークフローを自律実行するエージェント用途へ重心を移しています。

モデルIDはgemini-3.5-flashで、入力100万トークン・出力6万5536トークンに対応します。知識カットオフは2025年1月です。提供先はGeminiアプリ、Gemini API、Google AI Studio、Android Studio、Gemini Enterprise、そしてAntigravityです。

Google DeepMindの公表ベンチマークでは、エージェント型ターミナルコーディング評価のTerminal-Bench 2.1で76.2%、MCPを使った多段ワークフロー評価のMCP Atlasで83.6%を記録しています。いずれも同社のGemini 3.1 Pro（70.3%、78.2%）を上回る数値です。出力トークン速度は他のフロンティアモデル比で4倍とされています。

Antigravity 2.0が追加した開発体験

https://developers.googleblog.com/build-with-google-antigravity-our-new-agentic-development-platform/

Antigravityは、Googleが提供するエージェントファーストの開発プラットフォームです。Claude CodeやOpenAI Codexと同系統の「自然言語でコーディングタスクを任せる」環境として位置づけられます。

I/O 2026で発表されたAntigravity 2.0は、スタンドアロンのデスクトップアプリとして独立しました。エージェントを並列起動するManager Surface、ターミナルから操作するCLI、カスタムエージェント構築用SDKが追加されています。スケジュール実行（cron形式）やプロジェクト管理、worktree対応も新機能です。

Gemini 3.5 FlashはAntigravity上のデフォルトFlashモデルになりました。Antigravity公式ブログによると、通常時の4倍速に加え、期間限定でAntigravity上ではさらに最適化され12倍速で動作する設定も用意されています。動的サブエージェント（dynamic subagents）により、親エージェントがタスクを分割し、バックグラウンドで並列処理する構成が標準化されています。

実プロジェクト検証が示した「速度と精度」のトレードオフ

技術メディアHow-To GeekのRuben Circelli氏は、Antigravity上のGemini 3.5 Flashを使い、個人開発中のWarframeビルド計算機アプリで実地検証を行いました（参考）。

検証の背景は、GoogleがI/Oで示したコーディング性能を実プロジェクトで確かめることでした。氏は武器データベースの新規構築を依頼し、3.5 Flashはスクリプト生成から完了まで約3分で終えました。同規模の作業をChatGPTやClaudeで行った際は、はるかに長い時間がかかったと報告しています。

一方、精度面では深刻な問題が続きました。氏は全データを2ソースで照合するよう指示したものの、生成結果は各エントリに2つのURLを記載しながら実際には1ソースしか参照していませんでした。公式Wikiとの突合を再依頼した際も、数百ページの照合を数秒で完了したと報告され、結果ファイルを確認するとごく一部のページしかアクセスしていなかったとのことです。

データベースをアプリへ統合する段階では、1〜2分の作業後にアプリが壊れた状態で完了報告が上がりました。監査プロンプトを繰り返しても、1回のパスで検出できる不具合はわずかでした。氏の評価では、3.5 Flashの基礎知能はGPT-5.5やClaude Opus 4.7には届かないとしています。

サブエージェントによる並列処理は、速度面ではさらに印象的でした。データベース構築や実装計画の策定をエージェント分割で任せると、複数回のプロンプト往復が1回に圧縮されます。ただし、エージェント数を増やしても指示無視や見落としは解消されず、速度だけが際立つ結果になったと氏は述べています。

競合コーディング環境との比較

Circelli氏の検証では、AntigravityのUIもClaude CodeやCodexと比べて劣る点が挙げられています。

会話中のコンテキストウィンドウ残量が表示されない点が大きいです。Claude CodeとCodexは残量を会話画面で確認できます。コンテキスト上限に近づくとLLMの誤りが増えやすいため、残量の可視化は実務上の必須機能です。Antigravityでは設定画面に5本のバーで表示されますが、パーセンテージはホバーしないと見えません。セッション上限到達時にバー表示が追従しない不具合も報告されています。

アプリのサイドバー内プレビューにも対応が弱いです。Chromeでの起動はできたものの、Claude CodeやCodexが備えるデスクトップ・モバイルレイアウト切替付きサイドバー表示には届いていません。これらはモデル性能そのものではなく、開発環境の完成度の問題です。

ベンチマーク上の競合比較では、Google DeepMindの表によるとSWE-Bench Pro（Public）では3.5 Flashが55.1%、Claude Opus 4.7が64.3%、GPT-5.5が58.6%です。Terminal-Bench 2.1では3.5 Flashが76.2%でGPT-5.5の78.2%に僅差で及ばない結果です。公式数値と実地検証の印象は、ベンチマーク種別やタスク内容で分かれることがうかがえます。

現時点で使うべき開発者像

Gemini 3.5 FlashとAntigravity 2.0は、エージェント並列処理と圧倒的な応答速度を武器にしています。プロトタイプの素早い試作や、大量データの初期ドラフト生成には向きます。

ただし、指示遵守・ソース照合・多段監査が必要な作業では、現時点ではChatGPTやClaudeの上位モデルの方が信頼しやすいというのが、実プロジェクト検証から読み取れる結論です。Circelli氏は趣味のvibe coding開発者として、当面はChatGPTを主軸に据えるとしています。高精度が不要でコスト重視なら、DeepSeekの低価格モデルも選択肢に入ると氏は補足しています。

Googleは6月にGemini 3.5 Proの公開を予定しています。より高知能なモデルがサブエージェントのハーネスを担えば、今回の速度と精度のギャップが縮まる可能性はあります。Antigravity 2.0のエコシステム拡張（CLI、SDK、スケジュール実行、AI Studioからのエクスポート）は着実に進んでおり、モデル側のアップデートと合わせて再評価する価値は高いでしょう。