GenloopがLiveSQLBench68%｜企業SQLの精度

企業データに自然言語で質問し、正しいSQLを返す——この一見シンプルな要求は、実データの複雑さの前でいまだに難題です。2026年6月2日、エージェント型アナリティクスを手がけるGenloopは、text-to-SQLベンチマーク「LiveSQLBench」で成功率68.15%を達成したと発表しました。同社は、OpenAIやAnthropicの最上位エージェントも50%を超えられていないと主張しています。

本記事では、発表内容とベンチマークの仕組み、公式リーダーボードとの見え方の違い、実務で検証するときの観点を整理します。

この記事でわかること

LiveSQLBenchが何を測り、なぜ「汚れた現場データ」向けと言われるか
Genloopが公表した68.15%と、読み取り専用クエリ90.5%の意味
公式リーダーボード上のGPT-5.5やClaude Opus 4.6の数値との関係
プレスリリースを読むときに押さえるべき検証上の注意点

https://genloop.ai/

LiveSQLBenchは何を測るベンチマークか

https://livesqlbench.ai/

LiveSQLBench（BIRD-SQL Pro v0.5）は、香港大学のBIRDチームが公開する、汚染（データ漏えい）を避けつつ継続更新するtext-to-SQLベンチマークです。GitHubのREADMEでは、BI向けのSELECTだけでなく、CREATEやUPDATEを含む管理系SQL（CRUD）まで評価対象に含むと説明されています。

現行リリースは主に次の3系統です。

Base-Lite: 18データベース、270タスク（SELECT 180、管理系 90）
Base-Full v1: 22データベース、600タスク（より自然で推論を要する問い、ノイズの多いスキーマ）
Large-v1: 18データベース、480タスク（1 DBあたり約1,000カラム・54テーブル規模）

各タスクには外部知識ベース（HKB）が紐づき、知識同士の依存関係をたどる多段推論が前提になります。評価はDocker上のPostgreSQL環境で行われ、SELECTは実行結果の一致、管理系は個別のテストケースで採点されます。成功率は「テストを通過したタスク数 ÷ 全タスク数」で定義されています。

公式サイトのリーダーボード（2026年3月2日更新、Baseデータセット・Model Baseカテゴリ）では、Gemini 3.1 Proが43.10%、Claude Opus 4.6が39.43%、GPT-5.5（xhigh）が37.36%と掲載されています。いずれも「ツールなしで自然言語から直接SQLを生成する」Model Base評価です。ベンチマーク運営側は、Agentカテゴリ（DB探索やCLI操作を伴う多段推論）も別途設けており、評価方式によって数値は大きく変わります。

Genloopが発表した68.15%の中身

USA Todayに掲載されたプレスリリース（VentureVoice Media配信、編集部は関与せず有料コンテンツ）によると、GenloopはLiveSQLBenchで68.15%の成功率を報告しました。同社は「汚染に強い（contamination-resistant）」ベンチマーク上で、実データベースに対する推論精度を示したと説明しています。

発表で触れられている主な数値と主張は次のとおりです。

総合成功率: 68.15%
読み取り専用（SELECT系）クエリ: 90.5%
OpenAI・Anthropicの最上位エージェントはいずれも50%未満で、Genloopを上回れていない
ソースデータを改変せず、企業DBをそのまま推論する設計

同リリースでは、複雑なSQL推論ベンチマークSpider2でも96.7%で世界1位とする実績に触れ、LiveSQLBenchでも同様にリードしていると位置づけています。Spider2の96.70%は、Genloop公式ブログ（2026年3月1日付）でSentinel Agent v2 Proのスコアとして公開されています。

Genloopは「エージェント型アナリティクス（agentic analytics）」プラットフォームです。公式ブログでは、データをコピーせず連携先に直接問い合わせる連邦型アクセス、メトリクス定義や調査手順を蓄積するコンテキストグラフ、同じ質問に同じ答えを返す決定論的推論、レビュー可能なガバナンスを柱に掲げています。Slack、MCP経由のClaude CodeやChatGPT、APIなどから利用できると説明されています。

公式リーダーボードと発表値をどう読み分けるか

読者が混乱しやすいのは、68.15%と、LiveSQLBench公式サイトに載る40%前後のモデルスコアのギャップです。これは必ずしも矛盾とは限りません。

公式リーダーボードに見えるのは、主に各社が提出したModel Baseの結果です。一方、Genloopの発表は自社プラットフォーム全体（カスタムLLMスタックとエージェント設計を含む）でのスコアであり、評価カテゴリや対象データセットの組み合わせが公開表と一致しているかは、2026年6月初旬時点ではプレスリリース本文からは確定できません。BIRDチームによる「Verified」バッジ付き提出かどうかも、USA Today掲載文だけでは分かりません。

また、掲載元はXPR Media経由の有料プレスリリースです。USA Todayページにも「編集・報道スタッフは作成に関与していない」「有料サービスの一部」と明記されています。数値の再現には、評価スクリプト・モデル版・Agent設定・対象タスク集合の公開が必要で、現時点では第三者による独立検証報告は見当たりません。

ここまでを踏まえると、68.15%は「Genloopが公表したベンチマーク結果」として扱い、OpenAIやAnthropicを「上回った」と断言する場合は、比較対象のエージェント名・バージョン・評価条件が開示されるまで留保が妥当です。公式リーダーボード上のClaude Opus 4.6（39.43%）やGPT-5.5（37.36%）は、あくまでModel Baseの別系統の指標です。

なぜ企業SQLはベンチマークと実務の両方で難しいか

LiveSQLBenchが重いのは、学習データに載りにくい新しいDBを随時追加する設計と、HKBを介した業務ルールの解釈が絡むからです。Base-Full v1では600タスクのうち410がSELECTのみ、190が管理系と Hugging Faceのデータセット説明に記載されています。スキーマの表記ゆれ、暗黙の結合条件、口語的な質問が混ざるため、単純なスキーマプロンプトだけでは足りません。

Genloop側の説明では、スキーマ文字列をそのままLLMに渡すのではなく、Unified Business Memoryと呼ぶ業務コンテキスト層を構築し、「売上」「qualified」など社内定義を保持したうえでSQLに落とす、というアプローチを取っています。Spider2向けブログでも、スキーマが不整合で質問が曖昧なケースで推論で補う必要があると述べており、LiveSQLBenchの難しさと方向性は一致します。

プレスリリースが強調する「ソースデータを操作しない」点は、CRUDを含むベンチマークでは特に重要です。誤ったUPDATEやDELETEは評価上の失敗だけでなく、実運用では損害につながります。読み取り専用で90.5%とし、総合で68.15%という内訳は、管理系タスクで難易度が跳ね上がっている可能性を示唆します。

導入検討時に取るべき検証ステップ

ベンチマーク結果を購買判断の根拠にするなら、次の順で確認するのが安全です。

自社スキーマのサブセットで、同じ質問をGenloopと既存のBI／text-to-SQLに投げ、回答SQLと結果セットを突合する
CRUDが必要かどうかを先に決める。分析のみならSELECT系の再現性が重要で、発表の90.5%が参考になる
データの置き場所（VPC、オンプレ、SaaS）とSOC 2 Type II・ISO 27001など、Genloopが謳うコンプライアンス要件が社内ポリシーと合うかを確認する
可能なら、LiveSQLBenchのBase-LiteやBase-Full v1をDocker環境で回し、自社チューニング前後のスコアを取る

Genloopは1752vcのポートフォリオで、Accelerateプログラム（10万ドル投資とGTM支援）に参加しているともリリースに記載されています。資金調達の文脈は製品成熟度の参考にはなりますが、ベンチマーク数値そのものの担保にはなりません。

業界への意味

text-to-SQLは「デモでは動くが本番で崩れる」領域として知られ、LiveSQLBenchのような継続更新型ベンチマークは、そのギャップを数値化する試みです。Genloopの68.15%は、エージェント型アナリティクスがベンチマーク上で高い水準を主張した事例として記録する価値があります。

一方で、2026年6月時点では数値の中心は同社配信のプレスリリースにあり、BIRDチームVerifiedの公開リーダーボード行としては未確認です。OpenAIやAnthropicの一般提供エージェントと比較する記事を書く以上、評価カテゴリの違いと出典の限界を併記しないと、読者を誤解させます。

実務担当者にとっての実用的な結論は、ベンチマーク一位そのものより、自社のノイズの多いスキーマと口語質問で再現率がどこまで出るかを測ることです。Genloopの発表は、その検証を促すきっかけとしては有効です。最終判断は、公開ベンチマークの再現と社内PoCの両方が揃ってから下すのがよいでしょう。