無料で試せるLLM APIプロバイダ13選制限と使い分けを解説

AIアプリを開発するとき、最初に立ちはだかるのがAPIコストだ。

本番前の検証や個人プロジェクトに、月数千円のトークン代を払い続けるのは現実的ではない。この記事では、無料でLLM APIを利用できるサービスを網羅したGitHubリポジトリ「free-llm-api-resources」を紹介する。

この記事でわかること：

完全無料で使えるLLM APIサービス13種の制限
OpenRouter・Groq・Cerebrasなど主要サービスの使い分け方
少額クレジットで始められる13サービスの概要

https://github.com/cheahjs/free-llm-api-resources

free-llm-api-resourcesとは

cheahjs/free-llm-api-resources は、無料またはクレジット付きで使えるLLM APIサービスを一覧化したGitHubリポジトリだ。

2024年7月に公開され、2026年5月時点でスターは20,000を超えている。READMEはPythonスクリプトによって自動生成されており、各サービスの制限情報が常に最新の状態に保たれている。

複数のサービスのドキュメントを個別に調べる手間を省くのがこのリポジトリの役割だ。「サービスを乱用するな」という注意書きが冒頭にあり、フリープランが善意で提供されている以上、過剰リクエストで制限が縮小されることを防ぐ意図が明示されている。

完全無料で使えるサービス

OpenRouter

The unified interface for LLMs. Find the best models & prices for your prompts

OpenRouter

OpenRouterは複数のLLMへの統一APIを提供するサービスだ。無料枠では1分あたり20リクエスト、1日あたり50リクエストまで使える。$10の一回限りのチャージをすると上限が1日1,000リクエストまで引き上がる。

利用できるモデルは幅広く、Gemma 3（4B・12B・27B）、Llama 3.3 70B、Hermes 3 Llama 3.1 405Bなど30種以上が対象だ。全モデルが共通クォータを消費するため、パラメータ数の大きいモデルを使うほど残り回数が早く減る。

Google AI Studio

https://aistudio.google.com

GeminiモデルをAPIで試せる無料環境だ。モデルによって制限が異なる。Gemma 3シリーズ（1B・4B・12B・27B）は1分あたり30リクエスト・1日14,400リクエストと余裕がある。一方でGemini 2.5 Flash系は1日あたり20リクエスト前後にとどまる。

注意点として、EEA・EU・英国・スイス以外の地域では入力データがモデルの学習に使用される。

Cerebras

https://cloud.cerebras.ai

CerebrasはWSE（ウェーファースケールエンジン）を使った独自ハードウェアで推論を実行するサービスだ。1分あたり30リクエスト・1時間あたり100万トークン・1日あたり1,400万リクエストという制限で、処理速度と回数の両面で余裕がある。

利用できるモデルはLlama 3.1 8BとOpenAIのgpt-oss-120Bの2種類。テキスト生成のレイテンシが低く、大量の短いリクエストを投げるバッチ処理向きだ。

Groq

https://console.groq.com

GroqはLPU（Language Processing Unit）を使った高速推論サービスだ。モデルごとに制限が設定されており、Llama 3.1 8Bは1日14,400リクエスト・1分6,000トークン、Llama 3.3 70Bは1日1,000リクエスト・1分12,000トークンが上限となる。

音声認識のWhisper Large v3も1日2,000リクエストまで無料で使える。Qwen 3-32Bにも対応している。

Cloudflare Workers AI

https://developers.cloudflare.com/workers-ai

エッジで推論を実行するサービスで、1日10,000 neuronsが無料枠だ。neuronsはCloudflare独自の課金単位で、リクエストの複雑さに応じて消費量が変わる。

Kimi-k2シリーズ、NVIDIA Nemotron-3-120B、OpenAIのgpt-oss-120Bに加え、Llama 2・3系・Gemma 3・Qwen 1.5・2.5など数十種類のモデルに対応している。

そのほかの完全無料サービス

Mistral (La Plateforme): 1秒あたり1リクエスト・月10億トークン。無料利用にはデータ学習への同意と電話番号認証が必要
Mistral (Codestral): コーディング特化モデル。1分30リクエスト・1日2,000リクエスト
Cohere: 1分20リクエスト・月1,000リクエスト。Command-Aなど複数モデルが対象
NVIDIA NIM: 1分40リクエストで様々なオープンモデルを試せる。電話番号認証が必要
GitHub Models: GitHub Copilot無料プランで使えるが、入出力トークン数の制限が厳しい。DeepSeek-R1やGrok 3に対応
HuggingFace Inference Providers: 月0.10ドル分のクレジット付き。10GB未満のオープンモデルが対象
Vercel AI Gateway: 月5ドルの無料枠で複数プロバイダのモデルにルーティングできる
OpenCode Zen: Big Pickle StealthやMiniMax M2.5など一部モデルが無料

クレジット付きで始めるサービス

登録時に一定額が付与されるサービスも13種ある。無料枠の制限が厳しいケースの代替として使える。

Baseten: $30。コンピュート時間で課金されるため、使い方次第で多くの実験が可能
Modal: $5/月（支払い方法を追加すると$30/月）。セルフホスト型モデルも動かせる
AI21: $10相当を3ヶ月間。Jambaファミリーが対象
Upstage: $10相当を3ヶ月間。Solar ProとMiniが対象
NLP Cloud: $15。電話番号認証が必要
Alibaba Cloud Model Studio: モデルごとに100万トークン付与。Qwenシリーズが対象
SambaNova Cloud: $5を3ヶ月間。DeepSeek-V3やLlama 3.3 70Bが使える
Scaleway: 100万トークンが無料。Qwen 3やMistral系モデルに対応
Hyperbolic: $1。DeepSeek V3やLlama 3.3 70Bが使える
Nebius: $1
Novita: $0.5を1年間
Inference.net: $1（メール調査に回答すると追加$25）
Fireworks: $1

サービスの選び方

制限の形が「リクエスト数」か「トークン数」かによって、向いている用途が変わる。

大量の短いリクエストを投げるバッチ処理ならCerebrasやGroqが向いている。1日14,400リクエストまで無料で使えるため、自動化スクリプトの開発に使いやすい。長文処理が多い用途ではトークン上限の大きいMistral (La Plateforme)が候補になる。

すでにGitHubアカウントを持っている開発者には、GitHub ModelsがDeepSeek-R1やGrok 3などの商用モデルに無料で触れられる入口として使える。Copilot無料プランに含まれているため、追加の登録なしに利用可能だ。

Google AI StudioのGemmaシリーズは1日14,400リクエストと飛び抜けて寛大なため、継続的な開発・テストに向いている。

まとめ

cheahjs/free-llm-api-resources は、無料でLLMを使いたい開発者が最初に確認すべきリソースだ。完全無料の13サービスとクレジット付きの13サービスを網羅し、スクリプトによる自動更新で情報の鮮度が保たれている。

Cerebras・Groq・Google AI Studioを組み合わせれば、コストゼロでも実用に近い開発環境を構築できる。