27Bのモデルが、その約15倍の規模を持つ397Bモデルを全コーディングベンチマークで上回りました。アリババのQwenチームが2026年4月22日にリリースした「Qwen3.6-27B」は、前世代フラッグシップを超えるコーディング性能をコンパクトなサイズで実現しています。

この記事でわかること:

  • Qwen3.6-27BがQwen3.5-397Bを超えた2つの理由
  • 新機能「Agentic Coding強化」と「Thinking Preservation」の詳細
  • llama.cppやvLLMでのローカル動作手順

Qwen3.6-27Bとは

Qwen3.6-27BはアリババのQwenチームが開発した27Bパラメータの密なモデル(dense model)です。2026年2月にリリースされたQwen3.5シリーズの知見を継承しつつ、コミュニティからのフィードバックを直接取り込んで設計されています。

ビジョンエンコーダを搭載しており、テキストだけでなく画像入力にも対応します。ライセンスはApache 2.0で、Hugging FaceとModelScopeで公開されています。フルモデルのサイズは55.6GBで、量子化版(Q4_K_M)では約16.8GBまで圧縮できます。

27Bが397Bを超えた2つの強化点

Qwen3.6における主な改善点は2つあります。

Agentic Codingの強化

コーディングエージェントが苦手としていたフロントエンドのワークフローと、リポジトリ全体を横断した推論を重点的に改善しています。複数ファイルにまたがる変更や、大規模コードベースのナビゲーションが従来より精度高く行えます。SWE-bench VerifiedはQwen3.5-27Bの75.0から77.2に向上し、前世代フラッグシップの397Bモデル(76.2)を上回りました。

Thinking Preservationの導入

推論(thinking)コンテキストを会話履歴をまたいで保持する新オプションです。モデルが前のターンでの思考プロセスを次の回答に引き継ぐため、反復的な開発作業でのオーバーヘッドが減ります。llama-serverでは--chat-template-kwargs '{"preserve_thinking": true}'で有効にできます。

ベンチマーク結果

主要なコーディング評価での比較は以下のとおりです。

ベンチマーク Qwen3.5-27B Qwen3.5-397B-A17B Claude Opus 4.5 Qwen3.6-27B
SWE-bench Verified 75.0 76.2 80.9 77.2
Terminal-Bench 2.0 41.6 52.5 59.3 59.3
SkillsBench Avg5 27.2 30.0 45.3 48.2
SWE-bench Pro 51.2 50.9 57.1 53.5

Terminal-Bench 2.0ではClaude Opus 4.5の59.3に並んでいます。SkillsBench Avg5はQwen3.5-27Bから77%改善し、397Bモデルを超えました。コンテキスト長はデフォルトで262,144トークンで、YaRN設定の変更で最大1,010,000トークンまで拡張できます。

ローカルで動かす方法

llama.cppを使う場合

macOSならbrew install llama.cppで導入できます。Q4_K_M量子化版(約16.8GB)をUnslothのリポジトリから取得すると手軽です。Simon Willisonの検証によると、生成速度は約25トークン/秒でした(参考)。

llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
    --no-mmproj --fit on -np 1 -c 65536 \
    --cache-ram 4096 -ctxcp 2 --jinja \
    --temp 0.6 --top-p 0.95 --top-k 20 \
    --reasoning on \
    --chat-template-kwargs '{"preserve_thinking": true}'

vLLMを使う場合

vllm serve Qwen/Qwen3.6-27B \
    --port 8000 \
    --max-model-len 262144 \
    --reasoning-parser qwen3

SGLangも同様の構成で動作します。どちらもOpenAI互換APIとして公開されるため、既存のアプリケーションからそのまま呼び出せます。Alibaba Cloud Model StudioからはAnthropicおよびOpenAI互換APIとして利用できます。

Qwen3.5-397Bとの違い

Qwen3.5-397B-A17BはHugging Faceでのモデルサイズが807GBです。Qwen3.6-27Bのフルモデルは55.6GBで、約15分の1になります。それにもかかわらず全コーディングベンチマークでQwen3.6-27Bが上回っています。

397B-A17BはMoE(Mixture of Experts)構成で、推論時にアクティブなパラメータは17Bです。一方Qwen3.6-27Bは密なアーキテクチャで全27Bパラメータを使います。Agenticコーディングへの集中的な改善と、Gated DeltaNetとSparse MoEを組み合わせた新アーキテクチャが、この性能差につながっています。

まとめ

Qwen3.6-27BはApache 2.0ライセンスで公開されており、商用利用も可能です。27Bというコンパクトなサイズで前世代最大モデルを超えるコーディング性能を持ち、量子化版であれば一般的なコンシューマーGPUやApple Siliconでも動作します。Thinking Preservationにより複数ターンにわたるコーディング作業での一貫性が高まっており、エージェント型の開発フローに組み込みやすい構成になっています。