AIアプリを開発するとき、最初に立ちはだかるのがAPIコストだ。
本番前の検証や個人プロジェクトに、月数千円のトークン代を払い続けるのは現実的ではない。この記事では、無料でLLM APIを利用できるサービスを網羅したGitHubリポジトリ「free-llm-api-resources」を紹介する。
この記事でわかること:
- 完全無料で使えるLLM APIサービス13種の制限
- OpenRouter・Groq・Cerebrasなど主要サービスの使い分け方
- 少額クレジットで始められる13サービスの概要
https://github.com/cheahjs/free-llm-api-resources
free-llm-api-resourcesとは
cheahjs/free-llm-api-resources は、無料またはクレジット付きで使えるLLM APIサービスを一覧化したGitHubリポジトリだ。
2024年7月に公開され、2026年5月時点でスターは20,000を超えている。READMEはPythonスクリプトによって自動生成されており、各サービスの制限情報が常に最新の状態に保たれている。
複数のサービスのドキュメントを個別に調べる手間を省くのがこのリポジトリの役割だ。「サービスを乱用するな」という注意書きが冒頭にあり、フリープランが善意で提供されている以上、過剰リクエストで制限が縮小されることを防ぐ意図が明示されている。
完全無料で使えるサービス
OpenRouter
OpenRouterは複数のLLMへの統一APIを提供するサービスだ。無料枠では1分あたり20リクエスト、1日あたり50リクエストまで使える。$10の一回限りのチャージをすると上限が1日1,000リクエストまで引き上がる。
利用できるモデルは幅広く、Gemma 3(4B・12B・27B)、Llama 3.3 70B、Hermes 3 Llama 3.1 405Bなど30種以上が対象だ。全モデルが共通クォータを消費するため、パラメータ数の大きいモデルを使うほど残り回数が早く減る。
Google AI Studio
GeminiモデルをAPIで試せる無料環境だ。モデルによって制限が異なる。Gemma 3シリーズ(1B・4B・12B・27B)は1分あたり30リクエスト・1日14,400リクエストと余裕がある。一方でGemini 2.5 Flash系は1日あたり20リクエスト前後にとどまる。
注意点として、EEA・EU・英国・スイス以外の地域では入力データがモデルの学習に使用される。
Cerebras
CerebrasはWSE(ウェーファースケールエンジン)を使った独自ハードウェアで推論を実行するサービスだ。1分あたり30リクエスト・1時間あたり100万トークン・1日あたり1,400万リクエストという制限で、処理速度と回数の両面で余裕がある。
利用できるモデルはLlama 3.1 8BとOpenAIのgpt-oss-120Bの2種類。テキスト生成のレイテンシが低く、大量の短いリクエストを投げるバッチ処理向きだ。
Groq
GroqはLPU(Language Processing Unit)を使った高速推論サービスだ。モデルごとに制限が設定されており、Llama 3.1 8Bは1日14,400リクエスト・1分6,000トークン、Llama 3.3 70Bは1日1,000リクエスト・1分12,000トークンが上限となる。
音声認識のWhisper Large v3も1日2,000リクエストまで無料で使える。Qwen 3-32Bにも対応している。
Cloudflare Workers AI
https://developers.cloudflare.com/workers-ai
エッジで推論を実行するサービスで、1日10,000 neuronsが無料枠だ。neuronsはCloudflare独自の課金単位で、リクエストの複雑さに応じて消費量が変わる。
Kimi-k2シリーズ、NVIDIA Nemotron-3-120B、OpenAIのgpt-oss-120Bに加え、Llama 2・3系・Gemma 3・Qwen 1.5・2.5など数十種類のモデルに対応している。
そのほかの完全無料サービス
- Mistral (La Plateforme): 1秒あたり1リクエスト・月10億トークン。無料利用にはデータ学習への同意と電話番号認証が必要
- Mistral (Codestral): コーディング特化モデル。1分30リクエスト・1日2,000リクエスト
- Cohere: 1分20リクエスト・月1,000リクエスト。Command-Aなど複数モデルが対象
- NVIDIA NIM: 1分40リクエストで様々なオープンモデルを試せる。電話番号認証が必要
- GitHub Models: GitHub Copilot無料プランで使えるが、入出力トークン数の制限が厳しい。DeepSeek-R1やGrok 3に対応
- HuggingFace Inference Providers: 月0.10ドル分のクレジット付き。10GB未満のオープンモデルが対象
- Vercel AI Gateway: 月5ドルの無料枠で複数プロバイダのモデルにルーティングできる
- OpenCode Zen: Big Pickle StealthやMiniMax M2.5など一部モデルが無料
クレジット付きで始めるサービス
登録時に一定額が付与されるサービスも13種ある。無料枠の制限が厳しいケースの代替として使える。
- Baseten: $30。コンピュート時間で課金されるため、使い方次第で多くの実験が可能
- Modal: $5/月(支払い方法を追加すると$30/月)。セルフホスト型モデルも動かせる
- AI21: $10相当を3ヶ月間。Jambaファミリーが対象
- Upstage: $10相当を3ヶ月間。Solar ProとMiniが対象
- NLP Cloud: $15。電話番号認証が必要
- Alibaba Cloud Model Studio: モデルごとに100万トークン付与。Qwenシリーズが対象
- SambaNova Cloud: $5を3ヶ月間。DeepSeek-V3やLlama 3.3 70Bが使える
- Scaleway: 100万トークンが無料。Qwen 3やMistral系モデルに対応
- Hyperbolic: $1。DeepSeek V3やLlama 3.3 70Bが使える
- Nebius: $1
- Novita: $0.5を1年間
- Inference.net: $1(メール調査に回答すると追加$25)
- Fireworks: $1
サービスの選び方
制限の形が「リクエスト数」か「トークン数」かによって、向いている用途が変わる。
大量の短いリクエストを投げるバッチ処理ならCerebrasやGroqが向いている。1日14,400リクエストまで無料で使えるため、自動化スクリプトの開発に使いやすい。長文処理が多い用途ではトークン上限の大きいMistral (La Plateforme)が候補になる。
すでにGitHubアカウントを持っている開発者には、GitHub ModelsがDeepSeek-R1やGrok 3などの商用モデルに無料で触れられる入口として使える。Copilot無料プランに含まれているため、追加の登録なしに利用可能だ。
Google AI StudioのGemmaシリーズは1日14,400リクエストと飛び抜けて寛大なため、継続的な開発・テストに向いている。
まとめ
cheahjs/free-llm-api-resources は、無料でLLMを使いたい開発者が最初に確認すべきリソースだ。完全無料の13サービスとクレジット付きの13サービスを網羅し、スクリプトによる自動更新で情報の鮮度が保たれている。
Cerebras・Groq・Google AI Studioを組み合わせれば、コストゼロでも実用に近い開発環境を構築できる。