Qwen3.6-27B　コーディング性能で397Bを超えた理由

27Bのモデルが、その約15倍の規模を持つ397Bモデルを全コーディングベンチマークで上回りました。アリババのQwenチームが2026年4月22日にリリースした「Qwen3.6-27B」は、前世代フラッグシップを超えるコーディング性能をコンパクトなサイズで実現しています。

この記事でわかること:

Qwen3.6-27BがQwen3.5-397Bを超えた2つの理由
新機能「Agentic Coding強化」と「Thinking Preservation」の詳細
llama.cppやvLLMでのローカル動作手順

Qwen/Qwen3.6-27B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Qwen3.6-27Bとは

Qwen3.6-27BはアリババのQwenチームが開発した27Bパラメータの密なモデル（dense model）です。2026年2月にリリースされたQwen3.5シリーズの知見を継承しつつ、コミュニティからのフィードバックを直接取り込んで設計されています。

ビジョンエンコーダを搭載しており、テキストだけでなく画像入力にも対応します。ライセンスはApache 2.0で、Hugging FaceとModelScopeで公開されています。フルモデルのサイズは55.6GBで、量子化版（Q4_K_M）では約16.8GBまで圧縮できます。

27Bが397Bを超えた2つの強化点

Qwen3.6における主な改善点は2つあります。

Agentic Codingの強化

コーディングエージェントが苦手としていたフロントエンドのワークフローと、リポジトリ全体を横断した推論を重点的に改善しています。複数ファイルにまたがる変更や、大規模コードベースのナビゲーションが従来より精度高く行えます。SWE-bench VerifiedはQwen3.5-27Bの75.0から77.2に向上し、前世代フラッグシップの397Bモデル（76.2）を上回りました。

Thinking Preservationの導入

推論（thinking）コンテキストを会話履歴をまたいで保持する新オプションです。モデルが前のターンでの思考プロセスを次の回答に引き継ぐため、反復的な開発作業でのオーバーヘッドが減ります。llama-serverでは--chat-template-kwargs '{"preserve_thinking": true}'で有効にできます。

ベンチマーク結果

主要なコーディング評価での比較は以下のとおりです。

ベンチマーク	Qwen3.5-27B	Qwen3.5-397B-A17B	Claude Opus 4.5	Qwen3.6-27B
SWE-bench Verified	75.0	76.2	80.9	77.2
Terminal-Bench 2.0	41.6	52.5	59.3	59.3
SkillsBench Avg5	27.2	30.0	45.3	48.2
SWE-bench Pro	51.2	50.9	57.1	53.5

Terminal-Bench 2.0ではClaude Opus 4.5の59.3に並んでいます。SkillsBench Avg5はQwen3.5-27Bから77%改善し、397Bモデルを超えました。コンテキスト長はデフォルトで262,144トークンで、YaRN設定の変更で最大1,010,000トークンまで拡張できます。

ローカルで動かす方法

llama.cppを使う場合

macOSならbrew install llama.cppで導入できます。Q4_K_M量子化版（約16.8GB）をUnslothのリポジトリから取得すると手軽です。Simon Willisonの検証によると、生成速度は約25トークン/秒でした（参考）。

llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
    --no-mmproj --fit on -np 1 -c 65536 \
    --cache-ram 4096 -ctxcp 2 --jinja \
    --temp 0.6 --top-p 0.95 --top-k 20 \
    --reasoning on \
    --chat-template-kwargs '{"preserve_thinking": true}'

vLLMを使う場合

vllm serve Qwen/Qwen3.6-27B \
    --port 8000 \
    --max-model-len 262144 \
    --reasoning-parser qwen3

SGLangも同様の構成で動作します。どちらもOpenAI互換APIとして公開されるため、既存のアプリケーションからそのまま呼び出せます。Alibaba Cloud Model StudioからはAnthropicおよびOpenAI互換APIとして利用できます。

Qwen3.5-397Bとの違い

Qwen3.5-397B-A17BはHugging Faceでのモデルサイズが807GBです。Qwen3.6-27Bのフルモデルは55.6GBで、約15分の1になります。それにもかかわらず全コーディングベンチマークでQwen3.6-27Bが上回っています。

397B-A17BはMoE（Mixture of Experts）構成で、推論時にアクティブなパラメータは17Bです。一方Qwen3.6-27Bは密なアーキテクチャで全27Bパラメータを使います。Agenticコーディングへの集中的な改善と、Gated DeltaNetとSparse MoEを組み合わせた新アーキテクチャが、この性能差につながっています。

まとめ

Qwen3.6-27BはApache 2.0ライセンスで公開されており、商用利用も可能です。27Bというコンパクトなサイズで前世代最大モデルを超えるコーディング性能を持ち、量子化版であれば一般的なコンシューマーGPUやApple Siliconでも動作します。Thinking Preservationにより複数ターンにわたるコーディング作業での一貫性が高まっており、エージェント型の開発フローに組み込みやすい構成になっています。