LLMにコンテキストを増やすほど、処理コストが指数的に膨らむ。2026年5月5日、この問題に真正面から取り組んだLLMが登場した。

Subquadraticが公開したSubQ 1M-Previewは、業界初の「完全サブ二乗スパースアテンションアーキテクチャ」を採用したLLMだ。研究段階では1200万トークンのコンテキストウィンドウに対応しており、同サイズでのアテンション計算量を既存フロンティアモデルの約1000分の1まで削減している。

この記事でわかること:

  • LLMのコンテキスト長がなぜ伸ばしにくいのか
  • SubQのSSA(スパースアテンションアーキテクチャ)の仕組み
  • 第三者検証済みのベンチマーク数値
  • API・SubQ Code・SubQ Searchの3製品の概要
  • 過去のサブ二乗モデルとの違いと現時点での懸念点

https://subq.ai/introducing-subq

トランスフォーマーが抱える計算量の壁

現在のLLMの大半はトランスフォーマーアーキテクチャを採用している。このアーキテクチャは「全対全アテンション」を行う設計で、シーケンス内のすべてのトークンをほかのすべてのトークンと比較する。コンテキスト長を2倍にすると、計算量は4倍になる——これが二次スケーリング(quadratic scaling)の問題だ。

実害は具体的だ。大規模コードベースの全体解析、長期エージェントの状態保持、大量ドキュメントの一括処理といったタスクは、既存モデルではコストが現実的ではなかった。

この制約を回避する手段として普及したのがRAG(検索拡張生成)だ。関連ドキュメントをベクトル検索で事前に絞り込んでからモデルに渡す方式だが、検索精度に依存するため、重要な情報が欠落するリスクが常につきまとう。Subquadraticはこの現状を「問題を解決したのではなく、迂回しているだけだ」と評している。

SSAアーキテクチャの仕組み

SubQが採用するSSA(Sparse Attention Architecture)は、アテンション計算の対象を「実際に関係するトークンのペア」に絞り込む。どの組み合わせが重要かをモデルが動的に判断し、それ以外の演算をスキップする設計だ。固定パターンで省略する方式ではなく、コンテキストに応じて選択内容が変わる。

この結果、コンテキスト長が増えても計算量は線形にしか増えない。研究モデルでは1200万トークンの処理時に、FlashAttentionと比べて52倍高速で、必要な計算量も63%少ない。1200万トークンというスケールでは、アテンション計算コストが既存フロンティアモデルの約1000分の1まで下がるとしている。

第三者機関が検証したベンチマーク

Subquadraticは一部のベンチマーク結果について第三者機関による検証を実施した。

RULER 128K(長文推論の標準ベンチマーク)では、SubQ 1M-Previewが95.0%のスコアを記録した。Claude Opus 4.6の94.8%をわずかに上回る水準だ。

MRCR v2(長文コンテキストでの複数情報の検索・推論)では、SubQ 1M-Previewの本番スコアが65.9。Claude Opus 4.7(32.2)やGemini 3.1 Pro(26.3)を上回り、GPT 5.5(74.0)に次ぐ結果となった(参考)。

SWE-Bench Verified(実用的なコーディング評価)では81.8を記録。Claude Opus 4.6(80.8)やDeepseek 4.0 Pro(80.0)を上回っている。

なお研究モデルでは1200万トークンでMRCR v2が83というスコアも報告されているが、こちらは第三者検証の対象外だ。

3つの提供形態

SubQは2026年5月5日よりプライベートベータとして提供が始まった。

APIは開発者・エンタープライズ向けのフルコンテキストAPIだ。コードベース全体や大規模ドキュメントをそのまま送信でき、RAGパイプラインを排除した設計が選択肢に入るようになる。

SubQ CodeはCLI形式のコーディングエージェントだ。リポジトリ全体をシングルコンテキストウィンドウに収め、計画・実装・レビューを1回のAPI呼び出しで完結させる。マルチエージェント連携のオーバーヘッドなしに、コードベース横断での作業が可能になる。

SubQ Searchは長文コンテキストを活かしたリサーチツールで、Deep Research機能をチャットボットに近い応答速度で提供する。大量のソースを一括処理して回答を返す設計だ。

いずれも現時点では早期アクセス申請が必要で、一般公開には至っていない。

過去のサブ二乗モデルとの比較と残る疑問

サブ二乗アテンションの研究は以前から積み重なっている。Mamba、RWKV、DeepSeekのスパースアテンション、Kimi Linearなどが同様のアプローチを試みてきた。しかし共通の課題があった。理論上は線形スケーリングを達成しても、フロンティアレベルのベンチマーク精度を同時には維持できないケース、あるいは最終的に標準アテンションを混在させたハイブリッド構成になってしまうケースが多かった。

SubquadraticはこれをPh.Dクラスの研究チームが数学の段階から解決したと述べており、Meta・Google・Oxford・Cambridge・ByteDance・Adobe・Microsoft出身の研究者11名が在籍している。

ただし独立した研究者による再現検証はまだ行われていない。VentureBeatの報道によると、研究コミュニティからは独立した証明を求める声が上がっており、「定数倍の改善をアーキテクチャ革命と表現している可能性」を指摘する意見もある(参考)。プライベートベータが終了し、外部研究者が実モデルを直接評価できる段階になれば、主張の信頼性がより明確になるだろう。

チームと調達規模

Subquadraticはマイアミを拠点とするスタートアップで、2900万ドル(約43億円)のシードラウンドを完了した。Tinderの共同創業者Justin Mateen、JAM Fund、AnthropicやOpenAI・Stripe・Brexの初期投資家が参加している。

CEO Justin Dangelは5回の起業経験を持ち、CTO Alex WhedonはMeta出身でTribeAIの生成AI責任者を務めた経歴を持つ。

SubQの主張が第三者検証で裏付けられれば、コンテキスト長の経済的制約は根本から変わる。早期アクセスはSubquadratic公式サイトから申請できる。