ローカルで動くオープンソースモデルが、クラウドAPIの精度に追いついた。
Alibabaの Qwen チームが2026年4月16日に公開した「Qwen3.6-35B-A3B」は、35Bのパラメータを持ちながら推論時に動かすのは約3Bだけというスパース MoE 設計のコーディングモデルだ。SWE-bench Verified で73.4%を記録し、RTX 4090 1枚で毎秒120トークン以上を出力する。Apache 2.0ライセンスで商用利用も無制限に可能だ。
この記事でわかること
- Qwen3.6-35B-A3BのMoEアーキテクチャと「A3B」が意味するもの
- SWE-benchやMCPMarkのベンチマーク結果と競合モデルとの比較
- 思考コンテキストを保持する「Thinking Preservation」の仕組み
- OllamaとvLLMを使ったローカル実行手順
- 必要なハードウェアと量子化オプションの目安
35Bのモデルを3Bのコストで動かす「スパースMoE」とは
従来のDenseモデルはすべてのパラメータを毎回計算する。Gemma 4-31Bがこのタイプで、31Bすべての重みが1トークンの生成に使われる。
Qwen3.6-35B-A3BはMixture of Experts(MoE)アーキテクチャを採用し、35Bのパラメータを複数の「エキスパート」に分散させた。1トークンを生成するとき、MoEルーターが全体の中から必要なエキスパートだけを選んで活性化する。その数が約3Bだ。「A3B」はApproximately 3 Billion active parametersの略称にあたる。
計算コストは3Bモデルと同等でありながら、学習済みの知識量は35Bモデルのまま、という構造になる。35Bのうち3Bしか活性化しない12対1のスパーシティ比率は、公開済みのオープンソースモデルの中でも最も積極的な設計の一つだ。
コンテキスト長はネイティブで262,144トークン。YaRNスケーリングを使えば100万トークン超まで拡張できる。
SWE-bench 73.4% コーディング性能の実態
コーディング性能のベンチマーク「SWE-bench Verified」でのスコアは73.4%だ。GitHubの実際のIssue修正タスクを自動で解かせる評価で、ソフトウェアエンジニアリング能力の業界標準的な指標とされている。
同クラスの主要オープンソースモデルと比較すると差は明確だ。
| モデル | SWE-bench Verified | MCPMark(ツール連携) | Terminal-Bench 2.0 |
|---|---|---|---|
| Qwen3.6-35B-A3B | 73.4% | 37.0% | 51.5% |
| Gemma 4-31B | 52.0% | 18.1% | 42.9% |
特に差が大きいのがMCPMarkだ。AIエージェントがMCPツールを正確に呼び出せるかを測るこのベンチマークで、Qwen3.6はGemma 4の2倍以上のスコアを記録している。エージェントループを組むとき、ツール呼び出しの精度は開発効率に直結する。
フロントエンド生成を測る「QwenWebBench」でも、前世代の978 ELOから1,397 ELOへと約43%向上している。
一点補足すると、SWE-bench 73.4%はAlibaba社内の評価スキャフォールドで計測した数値であり、標準的な公開ハーネスとは方法論が異なる。サードパーティの独立した評価では数ポイントの差が出ることがあるため、比較の際は注意が必要だ(参考)。
Thinking Preservationでエージェントループを途切れさせない
Qwen3.6の「Thinking Preservation」は、マルチステップの開発タスクで差が出る機能だ。
通常のLLMは各ターンの終わりに思考トレースを破棄する。「このリポジトリを解析してテストを書き、失敗したテストを直す」という連続的な作業では、エージェントは毎回ゼロから文脈を再構築しなければならない。
Thinking Preservationを有効にすると、モデルは前のターンで使った推論コンテキストを次のターンに引き継ぐ。エージェントが「なぜこの設計にしたか」を記憶したまま次のステップを実行できるため、長いタスクでの整合性が向上する。
このモデルは「thinking(思考モード)」と「non-thinking(直接応答モード)」の両方を持つ。反復的な開発エージェントにはthinkingモードとThinking Preservationの組み合わせが有効だ。一方、単純な1回限りのタスクにはnon-thinkingモードの方が高速に動作する。
ローカルで動かす3つの方法
リリース当日にOllamaがネイティブ対応を完了しており、すぐに試せる状態だ。
Ollama(最短手順)
ollama run qwen3.6
これだけで量子化済みモデルのダウンロードから起動まで完了する。localhost:11434にOpenAI互換のAPIが立ち上がる。
vLLM(本番・高スループット向け)
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
コーディングエージェントでツール呼び出しを使うなら、--enable-auto-tool-choice と --tool-call-parser qwen3_coder フラグが必要だ。
llama.cpp + Unsloth GGUF(Apple SiliconとシングルGPU向け)
UnslothAIがリリース当日にDynamic 2.0 GGUF量子化版を公開した。Q4_K_M量子化でファイルサイズは約20.9GB。RTX 4090では毎秒120トークン以上、Apple Silicon MacBook Pro(M4/M5、64GB)でも動作する。
huggingface-cli download unsloth/Qwen3.6-35B-A3B-GGUF \
--include "Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf" \
--local-dir ./
LM Studioに読み込むとGUI環境でも利用できる。
必要なハードウェアの目安
| 環境 | 処理速度の目安 |
|---|---|
| RTX 4090(24GB VRAM)+ 32GB RAM | 120+ t/s(Q4量子化) |
| RTX 3090(24GB VRAM) | 50〜65 t/s(Q4_K_M) |
| MacBook Pro M4/M5(64GB) | 35〜50 t/s |
VRAM 24GBあればQ4量子化で単体GPUに収まる。RTX 3090でも実用的な速度で動作するため、既存のGPU環境をそのまま活用できる。
APIアクセスとエコシステムの対応状況
Alibaba Cloud Model Studioを通じたAPIアクセスも提供される予定で、OpenAIおよびAnthropicプロトコルの両方に対応する。AnthropicプロトコルへのサポートはClaude APIを使っている既存コードに最小限の変更で組み込める点で実用的だ。
Qwen Code(Qwen公式のターミナルエージェント)はリリース時点から対応済みで、CLINE、Cursor、VS Codeなど主要な開発ツールとのOpenAI互換接続も動作する。API料金は入力$0.29/Mトークン、出力$1.65/Mトークン程度が見込まれている。
Gemma 4-31Bとの違いをどう判断するか
Qwen3.6-35B-A3BとGemma 4-31Bの最大の違いはアーキテクチャにある。Gemma 4-31BはすべてのパラメータをDenseに使う設計で、LiveCodeBench(競技プログラミング)と多言語タスクでは強さを発揮する。グローバルチーム向けのコーディングアシスタントや多言語入力が必要なケースでは、Gemma 4が優位になる場面もある。
一方、SWE-bench Verified(73.4% vs 52.0%)とMCPMark(37.0% vs 18.1%)の差は、実際のリポジトリ修正タスクとエージェント用途でQwen3.6が大きく上回っていることを示している。コーディングエージェントの実装を主目的にするなら、現時点ではQwen3.6-35B-A3Bが優位な選択肢だ。
MoE設計の副産物として、Qwen3.6-35B-A3BはDenseの35Bモデルより少ないVRAMで動く。Gemma 4-31Bを動かすのに必要な計算リソースとほぼ同等の環境で、より高い性能を出せる点が実用面での大きな利点になっている。
Apache 2.0ライセンスと商用利用
モデルウェイトはHugging Face(Qwen/Qwen3.6-35B-A3B)とModelScopeで公開されており、Apache 2.0ライセンスの下で利用できる。改変・再配布・商用製品への組み込みに制限がないため、内部ツールやサービスへの組み込みも追加コストなしに行える。
Simon Willison の検証では、M5 MacBook Pro上でローカル実行したQwen3.6-35B-A3BがSVG生成タスクでClaude Opus 4.7を上回る結果が出たと報告されている(参考)。ローカルで動かせるオープンソースモデルとしては、現時点での実用的な上限に近い性能だ。
コーディングエージェントをローカルで完結させたい開発者、APIコストを下げたいスタートアップ、プライバシー要件でクラウドAPIを使えないチームにとって、Qwen3.6-35B-A3BはOllamaの1コマンドで今日から試せる選択肢になった。