Ant Groupが開発したAIモデル「Ling-2.6-1T」が、MITライセンスのオープンウェイトとして公開された。総パラメータ数は1兆、OpenRouterで無料APIも提供されており、主要なエージェントベンチマークではDeepSeek-V3.1やGPT-5-mainを上回っている。

この記事でわかること:

  • Ling-2.6-1Tが推論コストを抑えながら高性能を維持する「Fast Thinking」の仕組み
  • AIME26、SWE-bench Verifiedなど主要ベンチマークでの他モデルとの比較
  • OpenRouterで即日無料利用する方法

inclusionAIとLingシリーズとは

inclusionAIは、中国フィンテック大手Ant Group(蚂蚁集团)の社内AI研究組織。アリペイの親会社として知られるAnt Groupが、AGI研究部門として立ち上げたチームだ。

前世代のLing-1Tに続き、2026年4月にLing-2.6-1Tを公開した。

モデルウェイトはHugging FaceとModelScopeの両方で配布されており、ライセンスはMIT。商用・個人利用ともに制限なく使える。

「Fast Thinking」で推論コストを圧縮

従来の大規模推論モデル(DeepSeek-R1、QwQなど)の課題は、回答前に長いChain-of-Thought(CoT)を出力する点にある。思考ステップをテキストとして出力するため、1回のリクエストで消費するトークン量が通常モデルの3〜5倍に膨らむ。

Ling-2.6-1Tはこの問題を「Fast Thinking」という仕組みで対処している。Evolutionary Chain-of-Thought(Evo-CoT)という独自の訓練手法により、推論プロセスを内部で完結させ、長い思考ステップを外部に出力しない。結果として、推論能力を保ちながらトークン消費を大幅に削減している。

公式モデルカードでは、GPT-5.4(Non-Reasoning)と同等の intelligence-output 効率と記載されており、前世代のLing-1Tからの大幅な改善を強調している。

アーキテクチャと仕様

モデルの内部構成は以下のとおり。

項目
総パラメータ数 1兆(MoE構造)
アクティブパラメータ 約50B/トークン
アーキテクチャ MLA + Hybrid Linear Attention
コンテキスト長 262,144トークン(YaRN rope scaling)
最大出力 32,768トークン
学習データ 20T+ トークン(推論密度データ40%以上)
学習精度 FP8 混合精度
ライセンス MIT

MLA(Multi-Head Latent Attention)とHybrid Linear Attentionを組み合わせたアーキテクチャは、長いコンテキストを処理する際のVRAM消費とレイテンシを抑えることを狙っている。1T規模でもエンタープライズ環境での実用的な推論速度を確保している。

ベンチマーク性能

数学・推論(AIME26)

AIME26でのスコアは70.42。DeepSeek-V3.1(55.21)、GPT-5-main(59.43)、Kimi-K2-0905(50.16)を上回る。Gemini-2.5-Pro(lowthink)の70.10とはほぼ同水準だ(いずれも公式モデルカードより)。

コーディング(LiveCodeBench)

LiveCodeBench(2024年8月〜2025年5月)では61.68を記録。DeepSeek-V3.1(48.02)とGPT-5-main(48.57)を13ポイント以上引き離している。

エージェント実行

エージェントワークフローに関連するベンチマークでは、オープンソースSOTAを複数達成している。

  • SWE-bench Verified: 72.2%
  • BFCLv4(Berkeley Function-Calling Leaderboard v4)
  • TAU2-Bench、Claw-Eval、PinchBench

独立機関Artificial Analysisの評価では、Intelligence Index 33.6を記録。測定済み495モデル中の上位27%に相当し、オープンウェイトの大規模非推論モデル部門では第2位に位置する(参考)。

無料APIで今すぐ使う

OpenRouterを通じて無料APIが提供されている。

モデルIDは inclusionai/ring-2.6-1t:free で呼び出せる。OpenRouterのアカウントを作成してAPIキーを発行するだけで利用可能だ。Novita AIでもAPIが提供されており、大量リクエスト向けの従量課金プランも選べる。

セルフホストを検討する場合は、SGLangまたはvLLMでの動作が公式にサポートされている。最小推奨構成は8GPU(A100/H100)で、複数のGPUにわたるテンソル並列処理(–tp-size 8)が必要になる。MTP(Multi-Token Prediction)による推論高速化のパッチも公式Gitリポジトリで提供されている。

エージェントフレームワークとの連携

Ling-2.6-1TはClaude Code、OpenClaw、OpenCode、CodeBuddyといったエージェントフレームワークとの統合に対応している。マルチツール・マルチステップのタスクを前提とした設計で、262Kトークンの長いコンテキストを保持したままツール呼び出しを繰り返す用途に向いている。

BFCLv4(ツール呼び出し精度)とTAU2-Bench(長期タスク継続実行)での高スコアは、実際のエージェント運用で求められる要件と対応している。

まとめ

Ling-2.6-1Tは、MIT完全オープンウェイトかつ無料APIで提供される1兆パラメータモデルだ。Fast Thinkingによるトークン効率化と、エージェントベンチマークでの高スコアが差別化ポイントになっている。

DeepSeek-V3.1やKimi-K2をエージェントワークフローで使っているチームには、切り替えコストが低くベンチマーク上のアドバンテージが期待できる選択肢として検討する価値がある。