全LLMを1行で統合 Cloudflare AI Gatewayとは

複数のLLMを使い分けるたびに、APIキーの管理やプロバイダごとのコードを書き直していないだろうか。

Cloudflare AI Gatewayはその問題を解決するプロキシサービスだ。OpenAI、Anthropic、Geminiなど22以上のプロバイダに対応し、baseURLを1行書き換えるだけで既存のコードをそのまま使い続けられる。この記事では、AI Gatewayの仕組みと主な機能を解説する。

この記事でわかること：
– Cloudflare AI Gatewayが解決する課題
– 対応プロバイダとモデル切り替えの方法
– キャッシュ・レートリミット・フォールバックの使い方
– 導入に必要なステップと認証オプション

AIプロバイダ管理の課題

AIアプリ開発では、モデルごとにAPIキーを取得し、エンドポイントURLやリクエスト形式をプロバイダ仕様に合わせる作業が発生する。コスト管理もプロバイダのダッシュボードを横断する必要があり、全体を把握しにくい。障害時のフォールバック処理を自前で実装すると、コードは複雑になる一方だ。

Cloudflare AI Gatewayは、アプリとプロバイダの間に置くプロキシとしてこれらを一元化する。

22以上のプロバイダに対応

Cloudflare AI Gateway

Observe and control your AI applications with analytics, caching, rate limiting, and model fallback through AI Gateway.

Cloudflare Docs

Cloudflare AI Gatewayが対応するプロバイダには、OpenAI、Anthropic、Google AI Studio、Google Vertex AI、Azure OpenAI、Mistral AI、Groq、HuggingFace、DeepSeek、xAI、ElevenLabs、Replicate、Cohere、Perplexity、Workers AIなどが含まれる。

プロバイダの切り替えはモデルパラメータを変えるだけで済む。OpenAI SDKを使う場合、baseURLをAI GatewayのURLに向け直し、modelフィールドにプロバイダ名を付けてモデルを指定する。

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "{cf_api_token}",
  baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_id}/compat",
});

// OpenAIを使う場合
await client.chat.completions.create({ model: "openai/gpt-5.2", messages: [...] });

// Anthropicに切り替える場合
await client.chat.completions.create({ model: "anthropic/claude-4-5-sonnet", messages: [...] });

// Googleに切り替える場合
await client.chat.completions.create({ model: "google/gemini-2.5-pro", messages: [...] });

OpenAI互換エンドポイントを使うため、既存のOpenAI SDK実装をそのまま流用できる。モデルパラメータを変えるだけで異なるプロバイダに切り替えられるのが最大のメリットだ。

主な機能

コスト削減に効くキャッシュ

同じリクエストを繰り返す場合、AI GatewayはレスポンスをキャッシュしてプロバイダへのAPIコールを省く。TTL（キャッシュ有効期間）は最短60秒から最長1ヶ月の範囲で設定できる。

デフォルトのキャッシュキーはプロバイダ名・エンドポイント・モデル名・認証ヘッダ・リクエストボディの完全一致で決まる。特定リクエストだけキャッシュを無効化したい場合は、ヘッダcf-aig-skip-cache: trueを付けて送る。リクエスト単位でTTLを上書きするcf-aig-cache-ttlヘッダも用意されている。

コスト暴走を防ぐレートリミット

「固定」または「スライディング」ウィンドウで単位時間あたりのリクエスト数を制限できる。上限を超えると429 Too Many Requestsが返り、AIプロバイダへのリクエストは発生しない。開発中の無制限消費や外部からの過剰アクセスを防ぐ用途に使える。

固定ウィンドウはタイムスロットで区切るのに対し、スライディングウィンドウは「直近N分間」を対象にするため、タイムスロット境界での集中リクエストを防ぎやすい。

障害時の自動フォールバック

プライマリプロバイダがエラーを返した場合、あらかじめ定義したフォールバック先に自動的に切り替わる。レスポンスヘッダcf-aig-stepでどのステップが成功したかを確認できる（0が初回成功、1が最初のフォールバック）。フォールバック先は複数設定でき、順番に試みる。

ログとアナリティクス

ダッシュボードでリクエスト数・トークン数・コスト・エラーをリアルタイムに確認できる。プロンプトの内容まで記録するため、デバッグや監査にも使える。どのアプリがコストの大半を占めているかを把握したい場面で特に役立つ。

認証オプション

プロバイダのAPIキーの扱いには3つの選択肢がある。

Unified BillingはCloudflareが費用を管理するモードで、各プロバイダのAPIキーを自分で取得・管理する必要がない。BYOK（Bring Your Own Key）はCloudflare側に自分のAPIキーを保存して実行時に使わせる方式。リクエストヘッダ方式は従来通り自前のAPIキーをヘッダに含めて送る方法で、既存の実装からの移行コストが最も低い。

Cloudflareの全プランで利用可能

AI GatewayはCloudflareの無料プランを含む全プランで使える。AI Gatewayのプロキシ機能自体の追加料金はなく、AIプロバイダへの課金は選択した認証方式とプロバイダの料金体系に依存する。Cloudflare Workers AIと組み合わせる場合はWorkers AIの無料枠が適用される。

まとめ

Cloudflare AI Gatewayは、LLMを使うアプリに共通する課題——コスト管理・障害対応・プロバイダ切り替え——をプロキシ層で解決する。OpenAI互換エンドポイントにより既存コードへの影響を最小化しつつ、キャッシュやレートリミットで運用コストを下げられる。複数プロバイダを使い分けているプロジェクトや、本番環境でのAIコスト管理に課題を感じている開発者にとって、試す価値があるサービスだ。