OpenSquilla公開 LLMコストを9分の1に抑えるルーター

AIエージェントのAPI料金は、雑な質問も難しい推論も同じ高価モデルに流すと一気に膨らみます。OpenSquillaは、対話のたびにローカルで複雑度を判定し、安いモデルで足りる仕事と高価モデルが必要な仕事を分けるOSSエージェントです。PinchBench 1.2.1では、Claude Opus 4.7単体とほぼ同じ精度を保ちながら、合計コストを6.233ドルから0.688ドルへ下げています。

本記事では、OpenSquillaの仕組みとSquillaRouterの振り分けロジック、ベンチマーク結果、導入手順を整理します。

SquillaRouterが対話ごとにT0〜T3の4段階へ振り分ける仕組み
PinchBench 1.2.1におけるコストと精度の比較結果
インストール方法とルーターの設定モード
OpenClawなど既存エージェントとの違い

GitHub - opensquilla/opensquilla: OpenSquilla — Token-Efficient AI Agent with same budget, higher intelligence density

OpenSquilla — Token-Efficient AI Agent with same budget, higher intelligence density - opensquilla/opensquilla

GitHub

OpenSquillaとは何か

OpenSquillaは、ターミナル・Web UI・Slackなどのチャット経路から使えるマイクロカーネル型のAIエージェントです。Apache 2.0で公開され、Python 3.12以上で動作します。2026年5月にGitHubへ公開され、執筆時点の最新安定版は0.3.1です。

CLI、Web UI、各チャネルは共通のターンループを通ります。ツール呼び出し、リトライ、ログ記録の挙動が画面をまたいで揃う設計です。OpenRouter、OpenAI、Anthropic、Ollama、DeepSeek、Gemini、DashScopeなど20以上のLLMプロバイダーを、同じ設定スキーマで切り替えられます。

課題は「全部を最上位モデルに投げる」運用

多くのエージェントフレームワークは、要約や雑談からコードレビューまで、すべて同じ高価モデルへ送ります。LLM（大規模言語モデル）は入力トークン数に応じて課金されるため、単純なターンまでOpusクラスのモデルを使うと、品質は上がっても請求額だけが積み上がります。

外部の分類APIにプロンプトを渡してモデルを選ぶ方法もありますが、ルーティングのたびにデータが外に出る点が気になります。コスト最適化とプライバシーの両方を満たすには、端末内で複雑度を判定する仕組みが必要です。

SquillaRouterがコストを抑える

OpenSquillaの中核はSquillaRouterです。LightGBMとONNX Runtimeを組み合わせた分類器が、各ターンの長さ、言語、コードの有無、キーワード、意味ベクトルを評価し、T0〜T3の4段階へ振り分けます。判定は端末内で完結し、モデル選択のためにプロンプトを外部の分類サービスへ送りません。

単純なチャットや編集、要約は安いティアへ流し、難しい推論や長時間タスク、リカバリーが必要な場面だけ強いモデルを使います。複雑と判定されたターンだけ拡張推論（reasoning）を要求し、システムプロンプトもタスクの重さに合わせて短くしたり詳しくしたりします。

ルーターは必須ではありません。opensquilla configure router --router disabledで、固定のプロバイダーとモデルへ直接送る単一モデルモードも選べます。ベンチマーク再現や課金監査のときは、こちらが適しています。

PinchBench 1.2.1の結果

GitHubリポジトリが掲げるPinchBench 1.2.1では、25タスクの平均スコアと合計コストを比較しています。

エージェント	ベースモデル	平均スコア	合計コスト
OpenSquilla	モデルルーター（Opus 4.7、GLM 5.1、DS4 Flash）	0.9251	$0.688
OpenClaw	Claude Opus 4.7	0.9255	$6.233

平均スコアの差は0.0004で、実質同水準です。一方、合計コストは約9分の1に下がっています。OpenSquillaの入力トークン合計は1,721,328、OpenClawは3,066,243で、ルーティングにより入力も約44%削減されています。

中国の開発者向けメディア「逛逛GitHub」も、同ベンチマークを引用し「token账单砍到差不多十分之一（トークン請求をおよそ10分の1に）」と紹介しています（参考）。公式READMEの9倍という表現と方向性は一致しますが、実測値はワークロードとプロバイダー設定に依存します。

主な機能

SquillaRouter以外にも、エージェントとしての実用機能が揃っています。

永続メモリとオンデバイス埋め込み — 過去の会話や文脈を保持し、ローカル検索で再利用します
レイヤードサンドボックス — ツール実行の権限を段階的に制御します
組み込みWeb検索 — エージェント単体で外部情報を取りに行けます
スキルとMCP — コーディング、GitHub操作、cron、Officeファイル処理など15種のスキルを必要時だけ読み込みます。MCPクライアントとしても、MCPサーバーとしても動作します
マルチチャネル — Slack、Feishu、Discord、Telegramなどへ接続できます
移行ツール — OpenClawやHermes Agentの設定・メモリをopensquilla migrateで取り込めます

診断用にopensquilla diagnostics onを有効にすると、各ターンがどのティアへ振られたかをメタデータで追跡できます。

料金

OpenSquilla本体は無料のオープンソースです。ただし、OpenRouterやOpenAIなど各プロバイダーのAPI利用料は別途発生します。節約効果は「安いモデルで済むターンを安いモデルへ送る」ことで得られ、ソフトウェア自体のライセンス料はかかりません。

Windowsポータブル版はPython同梱のzip、macOS/Linuxはuv tool installによるwheelインストールが推奨です。デフォルトのrecommendedプロファイルにはSquillaRouter用のONNX RuntimeとLightGBMが含まれます。coreプロファイルを選ぶとルーター依存を省けます。

類似ツールとの違い

比較対象として名前が挙がるのがOpenClawです。OpenSquillaはOpenClawに着想を得たとREADMEで明記しており、PinchBenchではOpenClawがClaude Opus 4.7固定、OpenSquillaが複数モデルへの動的ルーティングという構成で並べられています。

LangChainやCrewAIのような汎用オーケストレーション層とは異なり、OpenSquillaは個人向けエージェントの実行環境そのものを提供します。ルーティング、メモリ、チャネル、スケジュール実行まで一つのゲートウェイにまとまっている点が特徴です。モデル選択を自前で組むより、SquillaRouterを組み込んだ完成形を使う設計です。

使い始める手順

ターミナルから導入する場合、公式READMEの手順は次のとおりです。

uvをインストールする
uv tool install --python 3.12 "opensquilla[recommended] @ https://github.com/opensquilla/opensquilla/releases/download/v0.3.1/opensquilla-0.3.1-py3-none-any.whl"でインストールする
opensquilla onboard --router recommendedで初回設定を行う
opensquilla gateway runでゲートウェイを起動し、Web UIはhttp://127.0.0.1:18791/control/から開く

ルーターのモードは用途で使い分けます。日常利用はrecommended、OpenRouter経由で複数プロバイダーのコストをさらに最適化したい場合はopenrouter-mix、特定モデルの挙動を検証するときはdisabledが向いています。

WindowsではONNX Runtime用にVisual C++再頒布可能パッケージが必要です。未インストールでもエージェント自体は動きますが、SquillaRouterだけ無効化された単一モデル運用にフォールバックします。

注意点

ベンチマークの9倍削減は、PinchBench 1.2.1の25タスクと、Opus 4.7・GLM 5.1・DeepSeek Flashを組み合わせたルーター設定での結果です。自社のワークロードでは比率は変わります。ルーターを切ると節約効果は消え、再現性の高い検証には向きます。

0.3.1はチャット表示やSlack返信の安定化が中心のメンテナンスリリースです。ルーターのコア設計は0.3系で据え置かれ、日々の利用で壊れにくくする修正が入っています。

LLM APIコストを抑えたい開発者にとって、OpenSquillaは「端末内ルーターで対話ごとに最適なモデルへ振り分ける」という、すぐ試せるOSSの選択肢です。まずはrecommendedモードで動かし、opensquilla diagnostics onで振り分けを確認するのが現実的な第一歩です。