FreeLLMAPIで16社の無料LLM枠を1本化する方法

複数のLLMプロバイダを使うたびに、SDKの切り替えとレート制限の管理に時間を取られていませんか。

この記事では、オープンソースのゲートウェイ「FreeLLMAPI」が、16社の無料枠を1つのOpenAI互換エンドポイントに束ねる仕組みと、有料チャットプランとのコスト差を整理します。

この記事でわかること

FreeLLMAPIが解決する課題と全体像
対応プロバイダ・ルーターの主な機能
セットアップ手順とクライアントの向け方
ChatGPT Plus・Claude Pro・Gemini Advancedとの料金比較
導入前に押さえる制約と類似ツールとの違い

なぜ複数プロバイダの統合が必要か

Google、Groq、Cerebras、Mistral、GitHub Modelsなど、主要なAIラボはいずれも無料枠を提供しています。1社あたりの上限は小さく見えますが、合算すると月あたり約17億トークン規模の推論容量に相当します（FreeLLMAPI公式README）。

一方、手作業で束ねると負担が大きくなります。プロバイダごとにSDKが異なり、レート制限の単位もバラバラです。1社が429エラーを返した瞬間に、別のキーへ切り替える処理をアプリ側で書く必要があります。ダッシュボードも16か所に分散し、どのキーが上限に達したかを追いかけるのは現実的ではありません。

消費者向けの有料チャットプランを3つ揃える選択肢もあります。2026年時点の公式料金は、ChatGPT Plusが月額20ドル、Claude Proが月額20ドル、Google AI Pro（旧Gemini Advanced）が月額19.99ドルです。3つ契約すると月額約60ドル、年間では約720ドルになります。ただしこれらはブラウザやアプリ向けのチャット利用が主で、APIアクセスは別料金体系です。開発用途では、無料API枠を束ねる方がコスト面で有利な場面が多いです。

FreeLLMAPIとは

GitHub - tashfeenahmed/freellmapi: OpenAI-compatible proxy that stacks the free tiers of 16 LLM providers (~1.7B tokens/month) behind one /v1 endpoint — plus any custom OpenAI-compatible endpoint. Smart routing, automatic failover, encrypted keys. Personal experimentation only.

OpenAI-compatible proxy that stacks the free tiers of 16 LLM providers (~1.7B tokens/month) behind one /v1 endpoint — pl…

GitHub

FreeLLMAPIは、16社の無料LLMプロバイダとカスタムエンドポイントを、単一の/v1 APIに集約するセルフホスト型プロキシです。MITライセンスで公開されており、ローカルマシンやRaspberry Pi上で動かせます。

対応プロバイダには、Google（Gemini）、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、Z.ai、Ollama、Kilo、Pollinations、LLM7、OVH AI Endpoints、OpenCode Zenが含まれます。100以上のモデルが利用可能で、Gemini 2.5 Flash、Llama 4、Qwen3 235B、GPT-4.1、GPT-4o、Mistral Large 3、Codestral、Command R+などがルーター経由で呼び出せます。

クライアントはOpenAI SDK互換のbase_urlをhttp://localhost:3001/v1に向けるだけです。認証は統一キー（freellmapi-…形式）1本で済み、上流プロバイダのAPIキーをアプリに渡す必要はありません。

主な機能

スマートルーティングと自動フェイルオーバー

ルーターはフォールバックチェーンの優先順位に従い、健全なキーかつレート制限内のモデルを選びます。429や5xx、タイムアウトが発生すると、キーを短時間クールダウンさせ、次のモデルへ最大20回まで再試行します。応答ヘッダーのX-Routed-Viaで、実際に処理したプロバイダとモデルを確認できます。

レート制限の一元管理

RPM（分あたりリクエスト）、RPD（日あたりリクエスト）、TPM（分あたりトークン）、TPD（日あたりトークン）をキー単位で追跡します。上限に近づいたキーは自動的にスキップされ、無料枠を使い切る前に別プロバイダへ振り分けられます。

マルチAPI対応

OpenAI互換のPOST /v1/chat/completionsに加え、Anthropic Messages API（POST /v1/messages）にも対応しています。Claude CodeやAnthropic SDKを、無料枠のプールに向けて動かせます。エンベディング、画像生成、テキスト読み上げ、ツール呼び出し、ストリーミングにも対応しています。

セキュリティとダッシュボード

プロバイダのAPIキーはAES-256-GCMで暗号化してSQLiteに保存されます。React製の管理画面からキー登録、フォールバック順の並べ替え、利用分析、Playgroundでの動作確認が行えます。デスクトップ版（macOS・Windows）もリリースされています。

セットアップの流れ

Dockerが使える環境なら、次の1行で起動できます。

curl -fsSL https://freellmapi.co/install.sh | bash

手動で進める場合は、リポジトリをクローンし暗号化キーを生成してからdocker compose up -dを実行します。起動後、http://localhost:3001のダッシュボードで各プロバイダの無料APIキーを登録し、フォールバックチェーンを調整します。

Pythonでの呼び出し例は次のとおりです。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:3001/v1",
    api_key="freellmapi-your-unified-key",
)

resp = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Hello"}],
)

model="auto"を指定すると、ルーターが利用可能な最適モデルを自動選択します。LangChain、LlamaIndex、Continue、Claude Codeなど、既存のOpenAI互換クライアントはbase_urlの変更だけで接続できます。

料金比較：有料チャットプラン vs FreeLLMAPI

選択肢	月額目安	主な用途
ChatGPT Plus	$20	ブラウザ・アプリでのGPT利用
Claude Pro	$20	Claudeチャット・Projects
Google AI Pro	$19.99	Gemini＋2TBストレージ等
上記3つ合計	約$60	チャット体験の使い分け
FreeLLMAPI	$0（セルフホスト）	API経由の開発・自動化

FreeLLMAPI本体は無料です。オプションのPremiumプラン（年額$19または買い切り$49）は、モデルカタログのライブ更新を受け取るためのもので、ルーター自体の利用には不要です。無料インストールでも月次スナップショットのカタログが提供されます。

有料チャットプランはUIやメモリ機能、画像生成など消費者向け体験に強みがあります。API統合やバッチ処理、エージェント開発では、FreeLLMAPIのようなゲートウェイで無料枠を束ねる方が、月額60ドル規模の固定費を避けられます。

導入前に知っておく制約

公式READMEが挙げる制約は、導入判断の材料になります。

フロンティアモデルは使えない。無料枠の上限はLlama 3.3 70B、GLM-4.5、Gemini 2.5 Pro程度で、GPT-5やClaude Opusクラスの推論は対象外です。
1日の後半ほど品質が下がる。日次上限の小さい高性能モデルが枯渇すると、フォールバック先の小型モデルに切り替わります。UTC深夜にリセットされます。
レイテンシはばらつく。CerebrasやGroqは高速ですが、プロバイダによって応答速度に差があります。
無料枠は予告なく変更される。プロバイダ側の方針変更で429が増える場合があり、カタログの再取得が必要です。
SLAはない。本番ワークロードで安定性が必要なら、有料APIの契約が前提です。
シングルユーザー設計。マルチテナント認証はなく、インターネット公開は推奨されません。

個人の実験、プロトタイプ、社内ツールの試作には向いています。ミッションクリティカルなサービスへのそのままの組み込みは避けるべきです。

類似ツールとの違い

同様の「無料枠統合ゲートウェイ」は複数存在します。free-llm-gatewayは24社以上・260モデル以上を扱い、freeLLMは8プロバイダに特化した軽量構成です。FreeLLMAPIの特徴は、ダッシュボード付きの管理UI、Anthropic API互換、デスクトップアプリ、暗号化キー保存、スティッキーセッション（会話中のモデル固定）を1パッケージにまとめている点です。CLI中心でキーレス起動を重視するならfreellmpool、Node.js軽量構成ならProxyGateLLMも選択肢になります。

使いどころ

APIキーを複数プロバイダから無料で集め、1つのエンドポイントに統一したい開発者に、FreeLLMAPIは実用的な選択肢です。レート制限の自動回避とキー管理の一元化により、マルチプロバイダ運用の手間を大幅に減らせます。一方、最高性能の推論や安定したSLAが必要な用途では、有料APIへの投資が妥当です。まずはローカルに立ち上げ、Playgroundでルーティング挙動を確認してから本番連携に進むのが安全です。