27Bのモデルが、その約15倍の規模を持つ397Bモデルを全コーディングベンチマークで上回りました。アリババのQwenチームが2026年4月22日にリリースした「Qwen3.6-27B」は、前世代フラッグシップを超えるコーディング性能をコンパクトなサイズで実現しています。
この記事でわかること:
- Qwen3.6-27BがQwen3.5-397Bを超えた2つの理由
- 新機能「Agentic Coding強化」と「Thinking Preservation」の詳細
- llama.cppやvLLMでのローカル動作手順
Qwen3.6-27Bとは
Qwen3.6-27BはアリババのQwenチームが開発した27Bパラメータの密なモデル(dense model)です。2026年2月にリリースされたQwen3.5シリーズの知見を継承しつつ、コミュニティからのフィードバックを直接取り込んで設計されています。
ビジョンエンコーダを搭載しており、テキストだけでなく画像入力にも対応します。ライセンスはApache 2.0で、Hugging FaceとModelScopeで公開されています。フルモデルのサイズは55.6GBで、量子化版(Q4_K_M)では約16.8GBまで圧縮できます。
27Bが397Bを超えた2つの強化点
Qwen3.6における主な改善点は2つあります。
Agentic Codingの強化
コーディングエージェントが苦手としていたフロントエンドのワークフローと、リポジトリ全体を横断した推論を重点的に改善しています。複数ファイルにまたがる変更や、大規模コードベースのナビゲーションが従来より精度高く行えます。SWE-bench VerifiedはQwen3.5-27Bの75.0から77.2に向上し、前世代フラッグシップの397Bモデル(76.2)を上回りました。
Thinking Preservationの導入
推論(thinking)コンテキストを会話履歴をまたいで保持する新オプションです。モデルが前のターンでの思考プロセスを次の回答に引き継ぐため、反復的な開発作業でのオーバーヘッドが減ります。llama-serverでは--chat-template-kwargs '{"preserve_thinking": true}'で有効にできます。
ベンチマーク結果
主要なコーディング評価での比較は以下のとおりです。
| ベンチマーク | Qwen3.5-27B | Qwen3.5-397B-A17B | Claude Opus 4.5 | Qwen3.6-27B |
|---|---|---|---|---|
| SWE-bench Verified | 75.0 | 76.2 | 80.9 | 77.2 |
| Terminal-Bench 2.0 | 41.6 | 52.5 | 59.3 | 59.3 |
| SkillsBench Avg5 | 27.2 | 30.0 | 45.3 | 48.2 |
| SWE-bench Pro | 51.2 | 50.9 | 57.1 | 53.5 |
Terminal-Bench 2.0ではClaude Opus 4.5の59.3に並んでいます。SkillsBench Avg5はQwen3.5-27Bから77%改善し、397Bモデルを超えました。コンテキスト長はデフォルトで262,144トークンで、YaRN設定の変更で最大1,010,000トークンまで拡張できます。
ローカルで動かす方法
llama.cppを使う場合
macOSならbrew install llama.cppで導入できます。Q4_K_M量子化版(約16.8GB)をUnslothのリポジトリから取得すると手軽です。Simon Willisonの検証によると、生成速度は約25トークン/秒でした(参考)。
llama-server \
-hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
--no-mmproj --fit on -np 1 -c 65536 \
--cache-ram 4096 -ctxcp 2 --jinja \
--temp 0.6 --top-p 0.95 --top-k 20 \
--reasoning on \
--chat-template-kwargs '{"preserve_thinking": true}'
vLLMを使う場合
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--max-model-len 262144 \
--reasoning-parser qwen3
SGLangも同様の構成で動作します。どちらもOpenAI互換APIとして公開されるため、既存のアプリケーションからそのまま呼び出せます。Alibaba Cloud Model StudioからはAnthropicおよびOpenAI互換APIとして利用できます。
Qwen3.5-397Bとの違い
Qwen3.5-397B-A17BはHugging Faceでのモデルサイズが807GBです。Qwen3.6-27Bのフルモデルは55.6GBで、約15分の1になります。それにもかかわらず全コーディングベンチマークでQwen3.6-27Bが上回っています。
397B-A17BはMoE(Mixture of Experts)構成で、推論時にアクティブなパラメータは17Bです。一方Qwen3.6-27Bは密なアーキテクチャで全27Bパラメータを使います。Agenticコーディングへの集中的な改善と、Gated DeltaNetとSparse MoEを組み合わせた新アーキテクチャが、この性能差につながっています。
まとめ
Qwen3.6-27BはApache 2.0ライセンスで公開されており、商用利用も可能です。27Bというコンパクトなサイズで前世代最大モデルを超えるコーディング性能を持ち、量子化版であれば一般的なコンシューマーGPUやApple Siliconでも動作します。Thinking Preservationにより複数ターンにわたるコーディング作業での一貫性が高まっており、エージェント型の開発フローに組み込みやすい構成になっています。