複数のLLMプロバイダを使うたびに、SDKの切り替えとレート制限の管理に時間を取られていませんか。

この記事では、オープンソースのゲートウェイ「FreeLLMAPI」が、16社の無料枠を1つのOpenAI互換エンドポイントに束ねる仕組みと、有料チャットプランとのコスト差を整理します。

この記事でわかること

  • FreeLLMAPIが解決する課題と全体像
  • 対応プロバイダ・ルーターの主な機能
  • セットアップ手順とクライアントの向け方
  • ChatGPT Plus・Claude Pro・Gemini Advancedとの料金比較
  • 導入前に押さえる制約と類似ツールとの違い

なぜ複数プロバイダの統合が必要か

Google、Groq、Cerebras、Mistral、GitHub Modelsなど、主要なAIラボはいずれも無料枠を提供しています。1社あたりの上限は小さく見えますが、合算すると月あたり約17億トークン規模の推論容量に相当します(FreeLLMAPI公式README)。

一方、手作業で束ねると負担が大きくなります。プロバイダごとにSDKが異なり、レート制限の単位もバラバラです。1社が429エラーを返した瞬間に、別のキーへ切り替える処理をアプリ側で書く必要があります。ダッシュボードも16か所に分散し、どのキーが上限に達したかを追いかけるのは現実的ではありません。

消費者向けの有料チャットプランを3つ揃える選択肢もあります。2026年時点の公式料金は、ChatGPT Plusが月額20ドル、Claude Proが月額20ドル、Google AI Pro(旧Gemini Advanced)が月額19.99ドルです。3つ契約すると月額約60ドル、年間では約720ドルになります。ただしこれらはブラウザやアプリ向けのチャット利用が主で、APIアクセスは別料金体系です。開発用途では、無料API枠を束ねる方がコスト面で有利な場面が多いです。

FreeLLMAPIとは

FreeLLMAPIは、16社の無料LLMプロバイダとカスタムエンドポイントを、単一の/v1 APIに集約するセルフホスト型プロキシです。MITライセンスで公開されており、ローカルマシンやRaspberry Pi上で動かせます。

対応プロバイダには、Google(Gemini)、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、Z.ai、Ollama、Kilo、Pollinations、LLM7、OVH AI Endpoints、OpenCode Zenが含まれます。100以上のモデルが利用可能で、Gemini 2.5 Flash、Llama 4、Qwen3 235B、GPT-4.1、GPT-4o、Mistral Large 3、Codestral、Command R+などがルーター経由で呼び出せます。

クライアントはOpenAI SDK互換のbase_urlhttp://localhost:3001/v1に向けるだけです。認証は統一キー(freellmapi-…形式)1本で済み、上流プロバイダのAPIキーをアプリに渡す必要はありません。

主な機能

スマートルーティングと自動フェイルオーバー

ルーターはフォールバックチェーンの優先順位に従い、健全なキーかつレート制限内のモデルを選びます。429や5xx、タイムアウトが発生すると、キーを短時間クールダウンさせ、次のモデルへ最大20回まで再試行します。応答ヘッダーのX-Routed-Viaで、実際に処理したプロバイダとモデルを確認できます。

レート制限の一元管理

RPM(分あたりリクエスト)、RPD(日あたりリクエスト)、TPM(分あたりトークン)、TPD(日あたりトークン)をキー単位で追跡します。上限に近づいたキーは自動的にスキップされ、無料枠を使い切る前に別プロバイダへ振り分けられます。

マルチAPI対応

OpenAI互換のPOST /v1/chat/completionsに加え、Anthropic Messages API(POST /v1/messages)にも対応しています。Claude CodeやAnthropic SDKを、無料枠のプールに向けて動かせます。エンベディング、画像生成、テキスト読み上げ、ツール呼び出し、ストリーミングにも対応しています。

セキュリティとダッシュボード

プロバイダのAPIキーはAES-256-GCMで暗号化してSQLiteに保存されます。React製の管理画面からキー登録、フォールバック順の並べ替え、利用分析、Playgroundでの動作確認が行えます。デスクトップ版(macOS・Windows)もリリースされています。

セットアップの流れ

Dockerが使える環境なら、次の1行で起動できます。

curl -fsSL https://freellmapi.co/install.sh | bash

手動で進める場合は、リポジトリをクローンし暗号化キーを生成してからdocker compose up -dを実行します。起動後、http://localhost:3001のダッシュボードで各プロバイダの無料APIキーを登録し、フォールバックチェーンを調整します。

Pythonでの呼び出し例は次のとおりです。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:3001/v1",
    api_key="freellmapi-your-unified-key",
)

resp = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Hello"}],
)

model="auto"を指定すると、ルーターが利用可能な最適モデルを自動選択します。LangChain、LlamaIndex、Continue、Claude Codeなど、既存のOpenAI互換クライアントはbase_urlの変更だけで接続できます。

料金比較:有料チャットプラン vs FreeLLMAPI

選択肢 月額目安 主な用途
ChatGPT Plus $20 ブラウザ・アプリでのGPT利用
Claude Pro $20 Claudeチャット・Projects
Google AI Pro $19.99 Gemini+2TBストレージ等
上記3つ合計 約$60 チャット体験の使い分け
FreeLLMAPI $0(セルフホスト) API経由の開発・自動化

FreeLLMAPI本体は無料です。オプションのPremiumプラン(年額$19または買い切り$49)は、モデルカタログのライブ更新を受け取るためのもので、ルーター自体の利用には不要です。無料インストールでも月次スナップショットのカタログが提供されます。

有料チャットプランはUIやメモリ機能、画像生成など消費者向け体験に強みがあります。API統合やバッチ処理、エージェント開発では、FreeLLMAPIのようなゲートウェイで無料枠を束ねる方が、月額60ドル規模の固定費を避けられます。

導入前に知っておく制約

公式READMEが挙げる制約は、導入判断の材料になります。

  • フロンティアモデルは使えない。無料枠の上限はLlama 3.3 70B、GLM-4.5、Gemini 2.5 Pro程度で、GPT-5やClaude Opusクラスの推論は対象外です。
  • 1日の後半ほど品質が下がる。日次上限の小さい高性能モデルが枯渇すると、フォールバック先の小型モデルに切り替わります。UTC深夜にリセットされます。
  • レイテンシはばらつく。CerebrasやGroqは高速ですが、プロバイダによって応答速度に差があります。
  • 無料枠は予告なく変更される。プロバイダ側の方針変更で429が増える場合があり、カタログの再取得が必要です。
  • SLAはない。本番ワークロードで安定性が必要なら、有料APIの契約が前提です。
  • シングルユーザー設計。マルチテナント認証はなく、インターネット公開は推奨されません。

個人の実験、プロトタイプ、社内ツールの試作には向いています。ミッションクリティカルなサービスへのそのままの組み込みは避けるべきです。

類似ツールとの違い

同様の「無料枠統合ゲートウェイ」は複数存在します。free-llm-gatewayは24社以上・260モデル以上を扱い、freeLLMは8プロバイダに特化した軽量構成です。FreeLLMAPIの特徴は、ダッシュボード付きの管理UI、Anthropic API互換、デスクトップアプリ、暗号化キー保存、スティッキーセッション(会話中のモデル固定)を1パッケージにまとめている点です。CLI中心でキーレス起動を重視するならfreellmpool、Node.js軽量構成ならProxyGateLLMも選択肢になります。

使いどころ

APIキーを複数プロバイダから無料で集め、1つのエンドポイントに統一したい開発者に、FreeLLMAPIは実用的な選択肢です。レート制限の自動回避とキー管理の一元化により、マルチプロバイダ運用の手間を大幅に減らせます。一方、最高性能の推論や安定したSLAが必要な用途では、有料APIへの投資が妥当です。まずはローカルに立ち上げ、Playgroundでルーティング挙動を確認してから本番連携に進むのが安全です。