ローカルLLMでエージェントを組むとき、汎用チャット向けのモデルをそのまま使うと指示への追従が乱れやすい。Hermes-agentなら、そのハーネス形式に合わせてトレーニングされたモデルを使うと安定性が大きく上がる。
この記事でわかること:
- Carnice-V2-27bが解決する課題と概要
- Qwen3.6-27Bをベースに何が改善されたか
- RTX 3090でローカル実行するための具体的な手順
Carnice-V2-27bとは
https://huggingface.co/kai-os/carnice-v2-27b
kai-os(kaiostephens)が2026年4月25日にHugging Faceで公開したOSSモデル。Alibaba製のQwen3.6-27BをベースにSFT(Supervised Fine-Tuning)を施した完全マージ済みBF16ウェイトで、前バージョンのCarnice-27b(Qwen3.5-27Bベース)の後継にあたる。
LoRAアダプターではなく、スタンドアロンのチェックポイントとして配布されているため、対応ランタイムにそのままロードできる。
Hermes-agentに合わせたSFTが必要な理由
汎用トレーニングのモデルをエージェントハーネスに投入すると、ツール呼び出しのフォーマットを崩したり、システムプロンプトの構造を無視したりする問題が起きやすい。
Hermes-agentはターミナル操作・ファイル編集・ブラウザ操作・リポジトリ横断デバッグといった多段階ツールワークフローに特化したエージェントフレームワーク。Carniceはそのハーネスが想定するメッセージパターンやツール呼び出し形式に合わせてトレーニングされており、ベースモデルよりもHermesワークフロー内での指示追従が安定している。
ベースモデル:Qwen3.6-27B
Qwen3.6-27BはAlibaba Qwendチームが2026年4月22日にApache 2.0ライセンスで公開したモデル。SWE-bench Verifiedで77.2%・Terminal-Bench 2.0で59.3%を記録している。
27Bのパラメータがすべて毎回のInferenceで有効化されるDenseアーキテクチャを採用しており、MoEモデルと比べてクォンタイズの挙動が安定している。Qwen3.5-397B-A17B(MoEモデル、実効17B)よりもSWE-bench・Terminal-Bench双方で上回るスコアを出している点が話題になった。
Q4_K_MクォントのGGUFで必要なVRAMは18GB前後で、RTX 4090(24GB)または24GBのUnified Memoryを持つMacでも実行できる。
V1からの改善点
Carnice-27b(V1)はQwen3.5-27BベースだったのでQwen3.6-27Bを採用した本バージョンは、コーディング性能とコンテキスト理解力をそのまま引き継いでいる。
トレーニングデータは3,473行(ウィンドウ分割後6,554件)で構成されている。
| ソース | 行数 |
|---|---|
| Carniceトレース | 1,508 |
| DJLougen Hermesアライメント | 1,015 |
| Lambda GLM-5.1 Hermesトレース | 950 |
ベースモデルとのベンチマーク比較(限定スモークテスト、limit=20):
| 指標 | Qwen3.6-27B | Carnice SFT |
|---|---|---|
| IFEval prompt strict | 85.0% | 90.0% |
| IFEval instruction strict | 90.0% | 93.3% |
| Eval loss | 0.607 | 0.414 |
| Eval perplexity | 1.835 | 1.513 |
IFEvalはInstruction Followingを測定するベンチマーク。Carnice SFTはprompt・instruction双方でベースより5〜3ポイント上回っている。Eval lossの0.607→0.414という改善幅は、Hermesハーネス内でのトークン予測精度が大幅に向上していることを示している。
なお上記はHFリポジトリ内のスモークベンチマークであり、公式リーダーボードのスコアではない点に注意が必要。ベンチマークの生データと再現スクリプトはリポジトリのbenchmarks/ディレクトリに含まれており、自分で検証できる。
ローカル実行の手順
GGUFファイルはkai-os/Carnice-V2-27b-GGUFで配布されている。
https://huggingface.co/kai-os/Carnice-V2-27b-GGUF
GPU VRAMに応じて推奨クォントが異なる:
| ファイル | サイズ | 対象 |
|---|---|---|
| IQ2_M | 10GB | 16GB GPU(imatrixキャリブレーション済み) |
| Q4_K_M | 16.5GB | 24GB GPU(バランス重視) |
| Q8_0 | 28.6GB | 高メモリ環境(ほぼロスレス) |
実行にはllama.cppの最新ビルドが必要。Qwen3.6のハイブリッドアーキテクチャ(GGUFアーキテクチャ型:qwen35)は古いランタイムでは読み込めないため、llama.cppを最新版に更新してから使う。現時点ではOllamaへの対応には別途設定が必要で、直接のロードが失敗するケースがある。
llama-cli \
-m carnice-v2-27b-Q4_K_M.gguf \
-ngl all \
-c 8192 \
-p "Write a short plan for a Hermes agent debugging a failing tool call."
16GBのGPUで長いコンテキストを使う場合は、クォントを低めに設定してKVキャッシュを調整する必要がある。ファイルがVRAMに収まるからといって128Kコンテキストが同時に収まるわけではない。
まとめ
Carnice-V2-27bはQwen3.6-27Bというコーディング性能の高い基盤モデルを、Hermes-agentのユースケースに合わせてSFTしたOSSモデル。RTX 3090以上のコンシューマGPUで動き、BF16からQ2系まで各種GGUFが用意されている。
IFEvalおよびEval lossのスモークテストではベースモデルを上回る結果が出ており、Hermesハーネス内でのInstruction Followingが改善されている。Hermes-agentをベースにエージェントを開発している場合は、汎用モデルの代わりに試す価値がある。