オープンウェイトのコーディングAIが、ついに商用モデルと肩を並べる性能に到達しました。

Moonshot AIは2026年4月20日、「Kimi K2.6」を公開しました。1兆パラメータのMoEアーキテクチャを採用しながら、重みファイルはHugging Faceで無料公開されており、APIでも利用できます。SWE-Bench Verifiedで80.2%を記録し、Claude Opus 4.6の80.8%に肉薄する成績を残しています。

この記事でわかること:

  • Kimi K2.6の主な機能とベンチマーク成績
  • 300体のエージェントを並列稼働させる「Claw Groups」の仕組み
  • APIの料金と自己ホスト時の必要スペック
  • 閉源モデルと速度・コストで比較した場合の位置づけ

Moonshot AIとKimi K2.6の位置づけ

Kimi K2.6を開発したMoonshot AIは、2026年を通じて中国のオープンソースAI研究をリードしてきたラボです。前バージョンのKimi K2.5が2026年1月にClaude Sonnet 4.6を超えた後、今回のK2.6ではさらに性能を引き上げ、商用の最先端モデルに正面から競合する水準に到達しました。

コーディングAIの課題として長年残っていたのが、「長時間・大規模な自律タスク」への対応です。多くのモデルは数十回のツール呼び出しで処理が止まったり、コンテキストが失われたりします。Kimi K2.6はこの課題を、エージェントのスウォーム(群制御)設計と積極的な長期実行サポートで解決しています。

主要ベンチマーク成績

Moonshot AIが公表した数値は、オープンウェイトモデルとして現時点でトップクラスです。

ベンチマーク スコア
SWE-Bench Verified 80.2%
SWE-Bench Pro 58.6%
HLE(ツールあり) 54.0
BrowseComp 83.2
LiveCodeBench v6 89.6
AIME 2026 96.4
Terminal-Bench 2.0 66.7

SWE-Bench Verifiedの80.2%という数字は、Claude Opus 4.6(80.8%)と0.6ポイント差です。SWE-Bench Proでは58.6%と、オープンモデルの中で最高スコアを達成しています。

比較のために記しておくと、Kimi K2.5がK2.6の3ヶ月前にリリースされた際はSWE-Bench Verifiedで72%台でした。1つのリリースサイクルで約8ポイントの向上を実現したことになります(参考)。

アーキテクチャの特徴

Kimi K2.6はMixture of Experts(MoE)を採用しています。総パラメータ数は1兆ですが、1トークンの処理に使われるのは32Bのアクティブパラメータです。大規模モデルでありながら推論コストを抑えられる構造です。

主な仕様は以下の通りです。

  • 総パラメータ: 1兆(アクティブ: 32B)
  • エキスパート数: 384(トークンごとに8つを選択)
  • コンテキストウィンドウ: 256Kトークン
  • 入力モダリティ: テキスト・画像・動画
  • 量子化: INT4をネイティブでサポート

INT4量子化をモデルが最初から意識した設計になっているため、圧縮後の精度劣化が少ないとされています。Artificial Analysisの計測では134.1トークン/秒を記録しており、同クラスのオープンモデルの中央値(52.8 t/s)を大きく上回っています(参考)。

Claw Groupsと長期エージェント稼働

Kimi K2.6が特に注目される点が、マルチエージェント協調の仕組みです。「Claw Groups」と呼ばれる機能により、最大300体のサブエージェントを並列稼働させられます。Moonshot AIが公開したデモでは、12時間以上の連続稼働と4,000回を超えるツール呼び出しが確認されています。

ひとつの大きなタスクをオーケストレーターが受け取り、複数のサブエージェントに分散します。各サブエージェントは個別に作業を進め、結果をオーケストレーターが統合します。コミュニティからは5日間連続のインフラエージェント稼働や、カーネルの書き換えといった報告も出ています。

フロンティアモデルで見られる類似機能(Anthropicのマルチエージェントや、OpenAIのCodex Chronicleなど)と同じコンセプトを、オープンウェイトで実装した点が際立っています。

APIと料金

APIはKimi公式エンドポイントのほか、OpenRouterやCloudflare Workers AI、Basetenなど複数のプロバイダーから利用できます。リリース当日から5つのAPIプロバイダーがサポートを開始しました。Kimi公式APIの料金は以下の通りです。

項目 料金
入力トークン $0.95 / 1M tokens
出力トークン $4.00 / 1M tokens

同クラスのオープンモデルと比較すると、入力・出力ともに高め(中央値はそれぞれ$0.60・$2.20)です。性能水準を考えると競争力はありますが、コスト最優先の用途では他の選択肢も検討すべきです。

セルフホストのハードウェア要件

モデルウェイトはHugging Faceで公開されており、自前のサーバーで動かすことができます。ただし必要スペックはかなり重い部類です。Moonshot AIが公開している主な構成は次の3パターンです。

A. vLLMまたはSGLang
H200 GPUノード(8基)でテンソル並列度8を設定して起動します。

B. KTransformers + SGLang(異種構成)
8台のNVIDIA L20と2基のIntel 6454S CPUを組み合わせます。スループット640 t/sのプリフィル、24.5 t/sのデコードを報告しています。

C. RTX 4090でのSFT(限定用途)
2台のRTX 4090とIntel 8488CにRAM 1.97 TB+スワップ200 GBを組み合わせ、LoRAのファインチューニングのみ可能です。

コンシューマーGPU1枚での全機能稼働は現実的ではありません。まず試すならOpenRouterなどのAPIが最も手軽です。

閉源モデルとの速度比較

GMI Cloudが実施した速度比較では、閉源モデル(Gemini 3.1 Pro、Claude Opus 4.7、GPT 5.5)が平均的に高速という結果が出ています。一方、Kimi K2.6はINT4量子化の効果でオープンモデルの中では最速クラスを維持しており、速度と性能のバランスが取れています。TTFT(初回トークン到達時間)は1.04秒で、同クラスの中央値(2.40秒)を大幅に下回ります。

Qwen3.6と比べると、Kimi K2.6は性能上限が高い一方でデプロイ要件が重い傾向にあります。「フロンティア級のエージェント性能を開放系で使いたい場合はKimi K2.6、より軽量に本番運用したい場合はQwen3.6」という整理がNerova社の分析にあります(参考)。

まとめ

2026年4月時点で、Kimi K2.6はオープンウェイトモデルの中でコーディングとエージェントタスクの最高水準に位置しています。SWE-Bench Verified 80.2%、300体並列・12時間連続稼働のClaw Groupsが主な強みです。セルフホストにはデータセンター級のGPUが必要ですが、APIはOpenRouterから即日利用できます。商用モデルに迫る性能を無料の重みで使いたい場合、まず試す価値のある選択肢です。