オープンウェイトのコーディングAIが、ついに商用モデルと肩を並べる性能に到達しました。
Moonshot AIは2026年4月20日、「Kimi K2.6」を公開しました。1兆パラメータのMoEアーキテクチャを採用しながら、重みファイルはHugging Faceで無料公開されており、APIでも利用できます。SWE-Bench Verifiedで80.2%を記録し、Claude Opus 4.6の80.8%に肉薄する成績を残しています。
この記事でわかること:
- Kimi K2.6の主な機能とベンチマーク成績
- 300体のエージェントを並列稼働させる「Claw Groups」の仕組み
- APIの料金と自己ホスト時の必要スペック
- 閉源モデルと速度・コストで比較した場合の位置づけ
Moonshot AIとKimi K2.6の位置づけ
Kimi K2.6を開発したMoonshot AIは、2026年を通じて中国のオープンソースAI研究をリードしてきたラボです。前バージョンのKimi K2.5が2026年1月にClaude Sonnet 4.6を超えた後、今回のK2.6ではさらに性能を引き上げ、商用の最先端モデルに正面から競合する水準に到達しました。
コーディングAIの課題として長年残っていたのが、「長時間・大規模な自律タスク」への対応です。多くのモデルは数十回のツール呼び出しで処理が止まったり、コンテキストが失われたりします。Kimi K2.6はこの課題を、エージェントのスウォーム(群制御)設計と積極的な長期実行サポートで解決しています。
主要ベンチマーク成績
Moonshot AIが公表した数値は、オープンウェイトモデルとして現時点でトップクラスです。
| ベンチマーク | スコア |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Pro | 58.6% |
| HLE(ツールあり) | 54.0 |
| BrowseComp | 83.2 |
| LiveCodeBench v6 | 89.6 |
| AIME 2026 | 96.4 |
| Terminal-Bench 2.0 | 66.7 |
SWE-Bench Verifiedの80.2%という数字は、Claude Opus 4.6(80.8%)と0.6ポイント差です。SWE-Bench Proでは58.6%と、オープンモデルの中で最高スコアを達成しています。
比較のために記しておくと、Kimi K2.5がK2.6の3ヶ月前にリリースされた際はSWE-Bench Verifiedで72%台でした。1つのリリースサイクルで約8ポイントの向上を実現したことになります(参考)。
アーキテクチャの特徴
Kimi K2.6はMixture of Experts(MoE)を採用しています。総パラメータ数は1兆ですが、1トークンの処理に使われるのは32Bのアクティブパラメータです。大規模モデルでありながら推論コストを抑えられる構造です。
主な仕様は以下の通りです。
- 総パラメータ: 1兆(アクティブ: 32B)
- エキスパート数: 384(トークンごとに8つを選択)
- コンテキストウィンドウ: 256Kトークン
- 入力モダリティ: テキスト・画像・動画
- 量子化: INT4をネイティブでサポート
INT4量子化をモデルが最初から意識した設計になっているため、圧縮後の精度劣化が少ないとされています。Artificial Analysisの計測では134.1トークン/秒を記録しており、同クラスのオープンモデルの中央値(52.8 t/s)を大きく上回っています(参考)。
Claw Groupsと長期エージェント稼働
Kimi K2.6が特に注目される点が、マルチエージェント協調の仕組みです。「Claw Groups」と呼ばれる機能により、最大300体のサブエージェントを並列稼働させられます。Moonshot AIが公開したデモでは、12時間以上の連続稼働と4,000回を超えるツール呼び出しが確認されています。
ひとつの大きなタスクをオーケストレーターが受け取り、複数のサブエージェントに分散します。各サブエージェントは個別に作業を進め、結果をオーケストレーターが統合します。コミュニティからは5日間連続のインフラエージェント稼働や、カーネルの書き換えといった報告も出ています。
フロンティアモデルで見られる類似機能(Anthropicのマルチエージェントや、OpenAIのCodex Chronicleなど)と同じコンセプトを、オープンウェイトで実装した点が際立っています。
APIと料金
APIはKimi公式エンドポイントのほか、OpenRouterやCloudflare Workers AI、Basetenなど複数のプロバイダーから利用できます。リリース当日から5つのAPIプロバイダーがサポートを開始しました。Kimi公式APIの料金は以下の通りです。
| 項目 | 料金 |
|---|---|
| 入力トークン | $0.95 / 1M tokens |
| 出力トークン | $4.00 / 1M tokens |
同クラスのオープンモデルと比較すると、入力・出力ともに高め(中央値はそれぞれ$0.60・$2.20)です。性能水準を考えると競争力はありますが、コスト最優先の用途では他の選択肢も検討すべきです。
セルフホストのハードウェア要件
モデルウェイトはHugging Faceで公開されており、自前のサーバーで動かすことができます。ただし必要スペックはかなり重い部類です。Moonshot AIが公開している主な構成は次の3パターンです。
A. vLLMまたはSGLang
H200 GPUノード(8基)でテンソル並列度8を設定して起動します。
B. KTransformers + SGLang(異種構成)
8台のNVIDIA L20と2基のIntel 6454S CPUを組み合わせます。スループット640 t/sのプリフィル、24.5 t/sのデコードを報告しています。
C. RTX 4090でのSFT(限定用途)
2台のRTX 4090とIntel 8488CにRAM 1.97 TB+スワップ200 GBを組み合わせ、LoRAのファインチューニングのみ可能です。
コンシューマーGPU1枚での全機能稼働は現実的ではありません。まず試すならOpenRouterなどのAPIが最も手軽です。
閉源モデルとの速度比較
GMI Cloudが実施した速度比較では、閉源モデル(Gemini 3.1 Pro、Claude Opus 4.7、GPT 5.5)が平均的に高速という結果が出ています。一方、Kimi K2.6はINT4量子化の効果でオープンモデルの中では最速クラスを維持しており、速度と性能のバランスが取れています。TTFT(初回トークン到達時間)は1.04秒で、同クラスの中央値(2.40秒)を大幅に下回ります。
Qwen3.6と比べると、Kimi K2.6は性能上限が高い一方でデプロイ要件が重い傾向にあります。「フロンティア級のエージェント性能を開放系で使いたい場合はKimi K2.6、より軽量に本番運用したい場合はQwen3.6」という整理がNerova社の分析にあります(参考)。
まとめ
2026年4月時点で、Kimi K2.6はオープンウェイトモデルの中でコーディングとエージェントタスクの最高水準に位置しています。SWE-Bench Verified 80.2%、300体並列・12時間連続稼働のClaw Groupsが主な強みです。セルフホストにはデータセンター級のGPUが必要ですが、APIはOpenRouterから即日利用できます。商用モデルに迫る性能を無料の重みで使いたい場合、まず試す価値のある選択肢です。