Kimi K2.6 コーディング最高峰OSSモデルの実力と使い方

オープンウェイトのコーディングAIが、ついに商用モデルと肩を並べる性能に到達しました。

Moonshot AIは2026年4月20日、「Kimi K2.6」を公開しました。1兆パラメータのMoEアーキテクチャを採用しながら、重みファイルはHugging Faceで無料公開されており、APIでも利用できます。SWE-Bench Verifiedで80.2%を記録し、Claude Opus 4.6の80.8%に肉薄する成績を残しています。

この記事でわかること：

Kimi K2.6の主な機能とベンチマーク成績
300体のエージェントを並列稼働させる「Claw Groups」の仕組み
APIの料金と自己ホスト時の必要スペック
閉源モデルと速度・コストで比較した場合の位置づけ

Kimi K2.6 正式リリース：エージェント型コーディング時代が本番稼働へ

Moonshot AIがKimi K2.6を正式出荷しました。Code Previewブランチを一般提供モデルへと昇格させ、12時間の自律コーディングセッション、300エージェントのスウォーム、フルスタック生成に対応しています。何が変わった…

kimi-k2.org

Moonshot AIとKimi K2.6の位置づけ

Kimi K2.6を開発したMoonshot AIは、2026年を通じて中国のオープンソースAI研究をリードしてきたラボです。前バージョンのKimi K2.5が2026年1月にClaude Sonnet 4.6を超えた後、今回のK2.6ではさらに性能を引き上げ、商用の最先端モデルに正面から競合する水準に到達しました。

コーディングAIの課題として長年残っていたのが、「長時間・大規模な自律タスク」への対応です。多くのモデルは数十回のツール呼び出しで処理が止まったり、コンテキストが失われたりします。Kimi K2.6はこの課題を、エージェントのスウォーム（群制御）設計と積極的な長期実行サポートで解決しています。

主要ベンチマーク成績

Moonshot AIが公表した数値は、オープンウェイトモデルとして現時点でトップクラスです。

ベンチマーク	スコア
SWE-Bench Verified	80.2%
SWE-Bench Pro	58.6%
HLE（ツールあり）	54.0
BrowseComp	83.2
LiveCodeBench v6	89.6
AIME 2026	96.4
Terminal-Bench 2.0	66.7

SWE-Bench Verifiedの80.2%という数字は、Claude Opus 4.6（80.8%）と0.6ポイント差です。SWE-Bench Proでは58.6%と、オープンモデルの中で最高スコアを達成しています。

比較のために記しておくと、Kimi K2.5がK2.6の3ヶ月前にリリースされた際はSWE-Bench Verifiedで72%台でした。1つのリリースサイクルで約8ポイントの向上を実現したことになります（参考）。

アーキテクチャの特徴

Kimi K2.6はMixture of Experts（MoE）を採用しています。総パラメータ数は1兆ですが、1トークンの処理に使われるのは32Bのアクティブパラメータです。大規模モデルでありながら推論コストを抑えられる構造です。

主な仕様は以下の通りです。

総パラメータ: 1兆（アクティブ: 32B）
エキスパート数: 384（トークンごとに8つを選択）
コンテキストウィンドウ: 256Kトークン
入力モダリティ: テキスト・画像・動画
量子化: INT4をネイティブでサポート

INT4量子化をモデルが最初から意識した設計になっているため、圧縮後の精度劣化が少ないとされています。Artificial Analysisの計測では134.1トークン/秒を記録しており、同クラスのオープンモデルの中央値（52.8 t/s）を大きく上回っています（参考）。

Claw Groupsと長期エージェント稼働

Kimi K2.6が特に注目される点が、マルチエージェント協調の仕組みです。「Claw Groups」と呼ばれる機能により、最大300体のサブエージェントを並列稼働させられます。Moonshot AIが公開したデモでは、12時間以上の連続稼働と4,000回を超えるツール呼び出しが確認されています。

ひとつの大きなタスクをオーケストレーターが受け取り、複数のサブエージェントに分散します。各サブエージェントは個別に作業を進め、結果をオーケストレーターが統合します。コミュニティからは5日間連続のインフラエージェント稼働や、カーネルの書き換えといった報告も出ています。

フロンティアモデルで見られる類似機能（Anthropicのマルチエージェントや、OpenAIのCodex Chronicleなど）と同じコンセプトを、オープンウェイトで実装した点が際立っています。

APIと料金

APIはKimi公式エンドポイントのほか、OpenRouterやCloudflare Workers AI、Basetenなど複数のプロバイダーから利用できます。リリース当日から5つのAPIプロバイダーがサポートを開始しました。Kimi公式APIの料金は以下の通りです。

項目	料金
入力トークン	$0.95 / 1M tokens
出力トークン	$4.00 / 1M tokens

同クラスのオープンモデルと比較すると、入力・出力ともに高め（中央値はそれぞれ$0.60・$2.20）です。性能水準を考えると競争力はありますが、コスト最優先の用途では他の選択肢も検討すべきです。

セルフホストのハードウェア要件

モデルウェイトはHugging Faceで公開されており、自前のサーバーで動かすことができます。ただし必要スペックはかなり重い部類です。Moonshot AIが公開している主な構成は次の3パターンです。

A. vLLMまたはSGLang
H200 GPUノード（8基）でテンソル並列度8を設定して起動します。

B. KTransformers + SGLang（異種構成）
8台のNVIDIA L20と2基のIntel 6454S CPUを組み合わせます。スループット640 t/sのプリフィル、24.5 t/sのデコードを報告しています。

C. RTX 4090でのSFT（限定用途）
2台のRTX 4090とIntel 8488CにRAM 1.97 TB＋スワップ200 GBを組み合わせ、LoRAのファインチューニングのみ可能です。

コンシューマーGPU1枚での全機能稼働は現実的ではありません。まず試すならOpenRouterなどのAPIが最も手軽です。

閉源モデルとの速度比較

GMI Cloudが実施した速度比較では、閉源モデル（Gemini 3.1 Pro、Claude Opus 4.7、GPT 5.5）が平均的に高速という結果が出ています。一方、Kimi K2.6はINT4量子化の効果でオープンモデルの中では最速クラスを維持しており、速度と性能のバランスが取れています。TTFT（初回トークン到達時間）は1.04秒で、同クラスの中央値（2.40秒）を大幅に下回ります。

Qwen3.6と比べると、Kimi K2.6は性能上限が高い一方でデプロイ要件が重い傾向にあります。「フロンティア級のエージェント性能を開放系で使いたい場合はKimi K2.6、より軽量に本番運用したい場合はQwen3.6」という整理がNerova社の分析にあります（参考）。

まとめ

2026年4月時点で、Kimi K2.6はオープンウェイトモデルの中でコーディングとエージェントタスクの最高水準に位置しています。SWE-Bench Verified 80.2%、300体並列・12時間連続稼働のClaw Groupsが主な強みです。セルフホストにはデータセンター級のGPUが必要ですが、APIはOpenRouterから即日利用できます。商用モデルに迫る性能を無料の重みで使いたい場合、まず試す価値のある選択肢です。