コスト半分、速度1.45倍。Googleの最新軽量モデルが、OpenRouter経由でサードパーティ利用に対応しました。
Gemini 3.1 Flash Liteは2026年3月のPreview公開から約2ヶ月で、OpenRouterにて正式版(GA)として提供が始まりました。本記事では、何が変わったのか、スペックと料金、そしてOpenRouter固有の機能を整理します。
この記事でわかること:
- Gemini 3.1 Flash Liteの基本スペックと対応モダリティ
- Gemini 2.5 Flash・GPT-5 miniなど競合との料金・性能比較
- Thinking levelsでコストと品質を調整する仕組み
- OpenRouterのservice_tierパラメーターの使い方
https://openrouter.ai/google/gemini-3.1-flash-lite
OpenRouterでの正式提供が意味すること
今回のGAは、Gemini 3.1 Flash LiteがOpenRouter上でプロダクション利用可能な状態になったことを意味します。Previewでは安定性やSLAの保証がないケースが多く、本番システムへの組み込みをためらう開発者も多くいます。GAになることで、フォールバック設定やservice_tierによるルーティングを使った本番運用が現実的な選択肢になります。
基本スペック
Gemini 3.1 Flash Liteは、大量処理・低レイテンシ用途を主眼に設計されたマルチモーダルモデルです。
入力はテキスト・画像・動画・音声・PDFの5形式に対応し、出力はテキストのみです。コンテキストウィンドウは1Mトークンで、最大出力は64kトークンです。知識カットオフは2025年1月です。
Googleが公表している出力速度は363 tokens/secで、前世代のGemini 2.5 Flash(249 tokens/sec)と比べ45%高速化されています。
料金と競合比較
OpenRouterでの料金は入力 $0.25/1Mトークン、出力 $1.50/1Mトークンです。Gemini 3 Flashの出力価格 $2.50/1M と比べると、出力コストは約40%安くなっています。
主要モデルとの比較は以下の通りです(2026年5月時点、OpenRouter掲載価格)。
| モデル | 入力($/1M) | 出力($/1M) | 速度(tok/s) |
|---|---|---|---|
| Gemini 3.1 Flash Lite | $0.25 | $1.50 | 363 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 249 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 366 |
| GPT-5 mini | $0.25 | $2.00 | 71 |
| Claude 4.5 Haiku | $1.00 | $5.00 | 108 |
| Grok 4.1 Fast | $0.20 | $0.50 | 145 |
Gemini 2.5 Flash-Liteは入出力ともに安価ですが、速度はほぼ同等です。Gemini 3.1 Flash Liteはそれより高い料金設定の代わりに、推論品質で差別化しています。GPT-5 miniとは入力価格が同じですが、出力速度は約5倍の差があります。
ベンチマーク結果
Googleが公開しているベンチマーク(いずれもツールなし)での比較です。
| ベンチマーク | Gemini 3.1 Flash Lite | Gemini 2.5 Flash | GPT-5 mini |
|---|---|---|---|
| GPQA Diamond(科学的知識) | 86.9% | 82.8% | 82.3% |
| MMMU-Pro(マルチモーダル推論) | 76.8% | 66.7% | 74.1% |
| LiveCodeBench(コード生成) | 72.0% | 62.6% | 80.4% |
| MMMLU(多言語Q&A) | 88.9% | 86.6% | 84.9% |
| Humanity’s Last Exam | 16.0% | 11.0% | 16.7% |
コーディングタスクではGPT-5 miniが上回りますが、マルチモーダル理解や科学的推論ではGemini 3.1 Flash Liteが競合を超えています。動画理解(Video-MMMU: 84.8%)はとくに突出しており、動画を扱う分類・抽出パイプラインでの活用が見込めます。
Thinking levelsでコストと精度を調整する
Gemini 3.1 Flash Liteはthinking levels(思考量)の設定に対応しており、タスクの難易度に応じてminimal・low・medium・highの4段階から選択できます。
思考量を増やすほどトークン消費が増え、レイテンシも上がります。一方、複雑な推論タスクでは品質が向上します。シンプルな分類や翻訳にはminimal、複数ステップの推論が必要な処理にはmedium以上、というように使い分けることで、コストを抑えながら必要な精度を確保できます。
OpenRouterではreasoningパラメーターを使ってthinking levelsを指定し、レスポンスのreasoning_details配列で内部推論ステップを確認できます。
OpenRouterのservice_tierパラメーター
今回のGA化に合わせて、OpenRouterはservice_tierパラメーターの対応を告知しています。Gemini系モデルに対してはstandard・flex・priorityの3段階を指定できます。
{
"model": "google/gemini-3.1-flash-lite",
"service_tier": "flex"
}
standardは通常の処理で、flexはコストを優先してレイテンシを許容する設定、priorityは遅延を最小化する設定です。指定した tier が必ず適用されるわけではなく、プロバイダー側の混雑状況によって異なる tier で処理される場合があります。実際に使用された tier はレスポンスのservice_tierフィールドで確認でき、課金もその tier に従います。
この機能はGoogle(Vertex AI)とGoogle(AI Studio)の両プロバイダーで利用可能です(参考)。
まとめ
Gemini 3.1 Flash LiteのOpenRouter GA化で、サードパーティ経由での本番運用が選択肢に入りました。363 tokens/secの出力速度と $0.25/$1.50 の料金は、大量処理・リアルタイム応答が求められるパイプライン向けに競争力があります。Thinking levelsとservice_tierを組み合わせることで、コストと品質のバランスをリクエスト単位で制御できる点も実用上のメリットです。