企業データに自然言語で質問し、正しいSQLを返す——この一見シンプルな要求は、実データの複雑さの前でいまだに難題です。2026年6月2日、エージェント型アナリティクスを手がけるGenloopは、text-to-SQLベンチマーク「LiveSQLBench」で成功率68.15%を達成したと発表しました。同社は、OpenAIやAnthropicの最上位エージェントも50%を超えられていないと主張しています。
本記事では、発表内容とベンチマークの仕組み、公式リーダーボードとの見え方の違い、実務で検証するときの観点を整理します。
この記事でわかること
- LiveSQLBenchが何を測り、なぜ「汚れた現場データ」向けと言われるか
- Genloopが公表した68.15%と、読み取り専用クエリ90.5%の意味
- 公式リーダーボード上のGPT-5.5やClaude Opus 4.6の数値との関係
- プレスリリースを読むときに押さえるべき検証上の注意点
LiveSQLBenchは何を測るベンチマークか
LiveSQLBench(BIRD-SQL Pro v0.5)は、香港大学のBIRDチームが公開する、汚染(データ漏えい)を避けつつ継続更新するtext-to-SQLベンチマークです。GitHubのREADMEでは、BI向けのSELECTだけでなく、CREATEやUPDATEを含む管理系SQL(CRUD)まで評価対象に含むと説明されています。
現行リリースは主に次の3系統です。
- Base-Lite: 18データベース、270タスク(SELECT 180、管理系 90)
- Base-Full v1: 22データベース、600タスク(より自然で推論を要する問い、ノイズの多いスキーマ)
- Large-v1: 18データベース、480タスク(1 DBあたり約1,000カラム・54テーブル規模)
各タスクには外部知識ベース(HKB)が紐づき、知識同士の依存関係をたどる多段推論が前提になります。評価はDocker上のPostgreSQL環境で行われ、SELECTは実行結果の一致、管理系は個別のテストケースで採点されます。成功率は「テストを通過したタスク数 ÷ 全タスク数」で定義されています。
公式サイトのリーダーボード(2026年3月2日更新、Baseデータセット・Model Baseカテゴリ)では、Gemini 3.1 Proが43.10%、Claude Opus 4.6が39.43%、GPT-5.5(xhigh)が37.36%と掲載されています。いずれも「ツールなしで自然言語から直接SQLを生成する」Model Base評価です。ベンチマーク運営側は、Agentカテゴリ(DB探索やCLI操作を伴う多段推論)も別途設けており、評価方式によって数値は大きく変わります。
Genloopが発表した68.15%の中身
USA Todayに掲載されたプレスリリース(VentureVoice Media配信、編集部は関与せず有料コンテンツ)によると、GenloopはLiveSQLBenchで68.15%の成功率を報告しました。同社は「汚染に強い(contamination-resistant)」ベンチマーク上で、実データベースに対する推論精度を示したと説明しています。
発表で触れられている主な数値と主張は次のとおりです。
- 総合成功率: 68.15%
- 読み取り専用(SELECT系)クエリ: 90.5%
- OpenAI・Anthropicの最上位エージェントはいずれも50%未満で、Genloopを上回れていない
- ソースデータを改変せず、企業DBをそのまま推論する設計
同リリースでは、複雑なSQL推論ベンチマークSpider2でも96.7%で世界1位とする実績に触れ、LiveSQLBenchでも同様にリードしていると位置づけています。Spider2の96.70%は、Genloop公式ブログ(2026年3月1日付)でSentinel Agent v2 Proのスコアとして公開されています。
Genloopは「エージェント型アナリティクス(agentic analytics)」プラットフォームです。公式ブログでは、データをコピーせず連携先に直接問い合わせる連邦型アクセス、メトリクス定義や調査手順を蓄積するコンテキストグラフ、同じ質問に同じ答えを返す決定論的推論、レビュー可能なガバナンスを柱に掲げています。Slack、MCP経由のClaude CodeやChatGPT、APIなどから利用できると説明されています。
公式リーダーボードと発表値をどう読み分けるか
読者が混乱しやすいのは、68.15%と、LiveSQLBench公式サイトに載る40%前後のモデルスコアのギャップです。これは必ずしも矛盾とは限りません。
公式リーダーボードに見えるのは、主に各社が提出したModel Baseの結果です。一方、Genloopの発表は自社プラットフォーム全体(カスタムLLMスタックとエージェント設計を含む)でのスコアであり、評価カテゴリや対象データセットの組み合わせが公開表と一致しているかは、2026年6月初旬時点ではプレスリリース本文からは確定できません。BIRDチームによる「Verified」バッジ付き提出かどうかも、USA Today掲載文だけでは分かりません。
また、掲載元はXPR Media経由の有料プレスリリースです。USA Todayページにも「編集・報道スタッフは作成に関与していない」「有料サービスの一部」と明記されています。数値の再現には、評価スクリプト・モデル版・Agent設定・対象タスク集合の公開が必要で、現時点では第三者による独立検証報告は見当たりません。
ここまでを踏まえると、68.15%は「Genloopが公表したベンチマーク結果」として扱い、OpenAIやAnthropicを「上回った」と断言する場合は、比較対象のエージェント名・バージョン・評価条件が開示されるまで留保が妥当です。公式リーダーボード上のClaude Opus 4.6(39.43%)やGPT-5.5(37.36%)は、あくまでModel Baseの別系統の指標です。
なぜ企業SQLはベンチマークと実務の両方で難しいか
LiveSQLBenchが重いのは、学習データに載りにくい新しいDBを随時追加する設計と、HKBを介した業務ルールの解釈が絡むからです。Base-Full v1では600タスクのうち410がSELECTのみ、190が管理系と Hugging Faceのデータセット説明に記載されています。スキーマの表記ゆれ、暗黙の結合条件、口語的な質問が混ざるため、単純なスキーマプロンプトだけでは足りません。
Genloop側の説明では、スキーマ文字列をそのままLLMに渡すのではなく、Unified Business Memoryと呼ぶ業務コンテキスト層を構築し、「売上」「qualified」など社内定義を保持したうえでSQLに落とす、というアプローチを取っています。Spider2向けブログでも、スキーマが不整合で質問が曖昧なケースで推論で補う必要があると述べており、LiveSQLBenchの難しさと方向性は一致します。
プレスリリースが強調する「ソースデータを操作しない」点は、CRUDを含むベンチマークでは特に重要です。誤ったUPDATEやDELETEは評価上の失敗だけでなく、実運用では損害につながります。読み取り専用で90.5%とし、総合で68.15%という内訳は、管理系タスクで難易度が跳ね上がっている可能性を示唆します。
導入検討時に取るべき検証ステップ
ベンチマーク結果を購買判断の根拠にするなら、次の順で確認するのが安全です。
- 自社スキーマのサブセットで、同じ質問をGenloopと既存のBI/text-to-SQLに投げ、回答SQLと結果セットを突合する
- CRUDが必要かどうかを先に決める。分析のみならSELECT系の再現性が重要で、発表の90.5%が参考になる
- データの置き場所(VPC、オンプレ、SaaS)とSOC 2 Type II・ISO 27001など、Genloopが謳うコンプライアンス要件が社内ポリシーと合うかを確認する
- 可能なら、LiveSQLBenchのBase-LiteやBase-Full v1をDocker環境で回し、自社チューニング前後のスコアを取る
Genloopは1752vcのポートフォリオで、Accelerateプログラム(10万ドル投資とGTM支援)に参加しているともリリースに記載されています。資金調達の文脈は製品成熟度の参考にはなりますが、ベンチマーク数値そのものの担保にはなりません。
業界への意味
text-to-SQLは「デモでは動くが本番で崩れる」領域として知られ、LiveSQLBenchのような継続更新型ベンチマークは、そのギャップを数値化する試みです。Genloopの68.15%は、エージェント型アナリティクスがベンチマーク上で高い水準を主張した事例として記録する価値があります。
一方で、2026年6月時点では数値の中心は同社配信のプレスリリースにあり、BIRDチームVerifiedの公開リーダーボード行としては未確認です。OpenAIやAnthropicの一般提供エージェントと比較する記事を書く以上、評価カテゴリの違いと出典の限界を併記しないと、読者を誤解させます。
実務担当者にとっての実用的な結論は、ベンチマーク一位そのものより、自社のノイズの多いスキーマと口語質問で再現率がどこまで出るかを測ることです。Genloopの発表は、その検証を促すきっかけとしては有効です。最終判断は、公開ベンチマークの再現と社内PoCの両方が揃ってから下すのがよいでしょう。