RTX 3090で動くHermes特化モデルCarnice-V2-27b

ローカルLLMでエージェントを組むとき、汎用チャット向けのモデルをそのまま使うと指示への追従が乱れやすい。Hermes-agentなら、そのハーネス形式に合わせてトレーニングされたモデルを使うと安定性が大きく上がる。

この記事でわかること：

Carnice-V2-27bが解決する課題と概要
Qwen3.6-27Bをベースに何が改善されたか
RTX 3090でローカル実行するための具体的な手順

Carnice-V2-27bとは

https://huggingface.co/kai-os/carnice-v2-27b

kai-os（kaiostephens）が2026年4月25日にHugging Faceで公開したOSSモデル。Alibaba製のQwen3.6-27BをベースにSFT（Supervised Fine-Tuning）を施した完全マージ済みBF16ウェイトで、前バージョンのCarnice-27b（Qwen3.5-27Bベース）の後継にあたる。

LoRAアダプターではなく、スタンドアロンのチェックポイントとして配布されているため、対応ランタイムにそのままロードできる。

Hermes-agentに合わせたSFTが必要な理由

汎用トレーニングのモデルをエージェントハーネスに投入すると、ツール呼び出しのフォーマットを崩したり、システムプロンプトの構造を無視したりする問題が起きやすい。

Hermes-agentはターミナル操作・ファイル編集・ブラウザ操作・リポジトリ横断デバッグといった多段階ツールワークフローに特化したエージェントフレームワーク。Carniceはそのハーネスが想定するメッセージパターンやツール呼び出し形式に合わせてトレーニングされており、ベースモデルよりもHermesワークフロー内での指示追従が安定している。

ベースモデル：Qwen3.6-27B

Qwen3.6-27BはAlibaba Qwendチームが2026年4月22日にApache 2.0ライセンスで公開したモデル。SWE-bench Verifiedで77.2%・Terminal-Bench 2.0で59.3%を記録している。

27Bのパラメータがすべて毎回のInferenceで有効化されるDenseアーキテクチャを採用しており、MoEモデルと比べてクォンタイズの挙動が安定している。Qwen3.5-397B-A17B（MoEモデル、実効17B）よりもSWE-bench・Terminal-Bench双方で上回るスコアを出している点が話題になった。

Q4_K_MクォントのGGUFで必要なVRAMは18GB前後で、RTX 4090（24GB）または24GBのUnified Memoryを持つMacでも実行できる。

V1からの改善点

Carnice-27b（V1）はQwen3.5-27BベースだったのでQwen3.6-27Bを採用した本バージョンは、コーディング性能とコンテキスト理解力をそのまま引き継いでいる。

トレーニングデータは3,473行（ウィンドウ分割後6,554件）で構成されている。

ソース	行数
Carniceトレース	1,508
DJLougen Hermesアライメント	1,015
Lambda GLM-5.1 Hermesトレース	950

ベースモデルとのベンチマーク比較（限定スモークテスト、limit=20）：

指標	Qwen3.6-27B	Carnice SFT
IFEval prompt strict	85.0%	90.0%
IFEval instruction strict	90.0%	93.3%
Eval loss	0.607	0.414
Eval perplexity	1.835	1.513

IFEvalはInstruction Followingを測定するベンチマーク。Carnice SFTはprompt・instruction双方でベースより5〜3ポイント上回っている。Eval lossの0.607→0.414という改善幅は、Hermesハーネス内でのトークン予測精度が大幅に向上していることを示している。

なお上記はHFリポジトリ内のスモークベンチマークであり、公式リーダーボードのスコアではない点に注意が必要。ベンチマークの生データと再現スクリプトはリポジトリのbenchmarks/ディレクトリに含まれており、自分で検証できる。

ローカル実行の手順

GGUFファイルはkai-os/Carnice-V2-27b-GGUFで配布されている。

https://huggingface.co/kai-os/Carnice-V2-27b-GGUF

GPU VRAMに応じて推奨クォントが異なる：

ファイル	サイズ	対象
IQ2_M	10GB	16GB GPU（imatrixキャリブレーション済み）
Q4_K_M	16.5GB	24GB GPU（バランス重視）
Q8_0	28.6GB	高メモリ環境（ほぼロスレス）

実行にはllama.cppの最新ビルドが必要。Qwen3.6のハイブリッドアーキテクチャ（GGUFアーキテクチャ型：qwen35）は古いランタイムでは読み込めないため、llama.cppを最新版に更新してから使う。現時点ではOllamaへの対応には別途設定が必要で、直接のロードが失敗するケースがある。

llama-cli \
  -m carnice-v2-27b-Q4_K_M.gguf \
  -ngl all \
  -c 8192 \
  -p "Write a short plan for a Hermes agent debugging a failing tool call."

16GBのGPUで長いコンテキストを使う場合は、クォントを低めに設定してKVキャッシュを調整する必要がある。ファイルがVRAMに収まるからといって128Kコンテキストが同時に収まるわけではない。

まとめ

Carnice-V2-27bはQwen3.6-27Bというコーディング性能の高い基盤モデルを、Hermes-agentのユースケースに合わせてSFTしたOSSモデル。RTX 3090以上のコンシューマGPUで動き、BF16からQ2系まで各種GGUFが用意されている。

IFEvalおよびEval lossのスモークテストではベースモデルを上回る結果が出ており、Hermesハーネス内でのInstruction Followingが改善されている。Hermes-agentをベースにエージェントを開発している場合は、汎用モデルの代わりに試す価値がある。