Cafe24がLLM Router公開、複数LLMを1APIで統合

複数のLLMを使い分けたい開発者にとって、プロバイダーごとのAPI仕様の違いは大きな負担です。韓国のECプラットフォーム企業Cafe24は2026年6月23日、ClaudeやGeminiなど100超のモデルを単一エンドポイントで扱える「LLM Router」を公開しました。OpenAI互換APIで既存コードを活かしながら、自動ルーティングとフォールバックで運用負荷を下げる設計です。

この記事でわかること

LLM Routerが解決する課題と公開の背景
主な機能（自動ルーティング、フォールバック、BYOKなど）
料金体系と既存のマルチモデル運用との違い
実際の呼び出し方法

https://llm-router.cafe24.com/

LLM運用の課題とLLM Routerの位置づけ

Claude、Gemini、Qwen、Llama、DeepSeekなど、用途に応じて複数のLLM（大規模言語モデル）を使う場面は増えています。一方で、プロバイダーごとにSDK、API仕様、再試行ロジック、ストリーミング形式が異なり、モデルを切り替えるたびにコード修正が必要になります。特定プロバイダーの障害が発生すると、単一依存のサービスはそのまま停止するリスクもあります。

LLM Routerは、この複雑さを1つのゲートウェイに集約するAI運用インフラです。Cafe24は2026年6月23日にサービスを正式公開し、ZDNet Koreaの報道では120超のAIモデルを1つのAPIで統合できると紹介されています（参考）。公式サイトでは100超のモデルと15以上のモデルファミリーに対応と記載されています。

韓国の科学技術情報通信部の調査では、生成AI利用者の53.2%が2つ以上のプラットフォームを併用していると報告されています（参考）。複数モデルを組み合わせる「マルチモデル・オーケストレーション」の流れに沿ったサービスと言えます。

何が変わったか

LLM Routerの核心は、複数プロバイダーのモデルを1つのOpenAI互換APIで呼び出せる点です。エンドポイントは https://llm-router.cafe24.com/api/v1 で、認証は Authorization: Bearer sk-cafe24-YOUR_KEY 形式のAPIキーを使います。キーは sk-cafe24- に64文字の16進数が続く形式です。

対応モデルには、Claude、Gemini、Qwen、Llama、DeepSeek、Mistral、MiniMaxなどが含まれます。モデルIDは deepseek-ai/DeepSeek-V3.1 のようにスラッシュ付きの文字列全体をそのまま指定します。自動選択には cafe24/auto を指定し、プロンプトの内容からコーディング、推論、翻訳、創作などのタスク種別を判定して最適なモデルを選びます。

主な機能

https://llm-router.cafe24.com/docs

自動ルーティングとプロバイダー選択

cafe24/auto を使うと、リクエスト内容に応じてモデルが自動選択されます。cost_quality_balance パラメータで品質優先、バランス、コスト優先の3段階を指定できます。model_pool やアカウント設定のAllowed Modelsで候補モデルを絞り込むことも可能です。

同一モデルを複数のプロバイダーが提供する場合、provider オブジェクトでコスト、レイテンシ、スループットなどの基準に基づき優先順位を設定します。モデルIDに :floor（最安プロバイダー優先）や :nitro（最速プロバイダー優先）などのサフィックスを付けて動作を変えることもできます。

自動フォールバック

指定モデルやプロバイダーが障害・タイムアウトで応答しない場合、事前に定義した代替モデルへ自動切り替えします。models 配列でフォールバックチェーンを指定でき、失敗した呼び出しはZCI（Zero Completion Insurance）により課金されません。公式FAQでも、応答に失敗したリクエストは課金対象外と明記されています。

BYOK（Bring Your Own Key）

既に保有しているOpenAI、Anthropic、GoogleなどのAPIキーを登録し、そのままLLM Router経由で使えます。プロバイダーへの課金を直接管理したい企業向けの機能です。BYOK利用時は claude-sonnet-4-6 のようにプレフィックスなしのモデルIDで呼び出します。

その他の運用機能

プリセット機能では、主モデル、システムプロンプト、サンプリング設定、フォールバックチェーンを1つにまとめて保存できます。Semantic Cacheは類似リクエストに対しキャッシュ応答を返し、トークン消費を抑えます。リアルタイムダッシュボードではリクエスト数、コスト、トークン使用量、モデル別の費用比率を確認できます。PIIマスキングなどのプライバシー設定も用意されています。

使い方

OpenAI公式SDKを使う場合、base_url と api_key を差し替えるだけで動作します。

from openai import OpenAI

client = OpenAI(
    base_url="https://llm-router.cafe24.com/api/v1",
    api_key="sk-cafe24-YOUR_KEY",
)

response = client.chat.completions.create(
    model="cafe24/auto",
    messages=[{"role": "user", "content": "クイックソートをPythonで実装して"}],
)
print(response.model)  # 実際に選択されたモデル

ストリーミング、Function Calling、Vision（画像入力）にも対応しています。利用可能なモデル一覧は GET /api/v1/models で取得します。

料金

LLM Routerは月額固定料金なしのクレジット従量課金です。公式サイトでは基本料金0円、登録時に無料クレジットが付与されると案内されています。課金は入力・出力トークン単位で、モデルとプロバイダーごとに単価が異なります。すべての料金はウォン建てで表示・課金され、クレジットカード登録時の自動チャージや請求書発行にも対応しています。

類似サービスとの違い

OpenRouterやLiteLLMなど、複数LLMを1つのAPIにまとめる仕組みは既に存在します。LLM Routerの特徴は、プロンプト分析によるタスク種別の自動判定、プロバイダー単位の細かいルーティング制御、プリセットとSemantic Cacheを含む運用機能を1つのコンソールに統合している点です。Cafe24はECプラットフォーム運営で培ったインフラ管理の知見を、AI運用基盤に応用する形になっています。

今後の見通し

Cafe24代表のイ・ジェソク氏は、AIモデルの種類が急速に増える中で効率的な接続・運用が新たな課題になっていると述べ、関連インフラの役割を担っていく方針を示しています（参考）。公式サイトでも新モデル・プロバイダーの追加を継続し、コード変更なしで利用できると説明されています。複数LLMを本番運用する開発チームや、チャットボット・EC運用の自動化を進める事業者にとって、導入候補として検討する価値があるサービスです。