エージェント型コーディングの性能差は、モデル本体だけでなく「ハーネス」の設計にも左右されます。DeepReinforceが2026年6月25日に公開したOrnith-1.0は、固定ハーネスに頼らず強化学習でスキャフォールド自体を学習する点が特徴です。フラッグシップの397B MoEはSWE-Bench Verifiedで82.4点を記録し、Claude Opus 4.7の80.8点を上回りました。

この記事では、Ornith-1.0ファミリーの全体像と、従来手法との違い、ベンチマーク結果、導入の要点を整理します。

この記事でわかること

  • Ornith-1.0の4サイズ構成とライセンス
  • 自己スキャフォールド型RL訓練の仕組み
  • SWE-BenchやTerminal-Benchでのスコア
  • ローカル環境への導入方法

https://github.com/deepreinforce-ai/Ornith-1

Ornith-1.0とは何か

Ornith-1.0は、エージェント型コーディング(ターミナル操作やツール呼び出しを伴う自律的なコード修正)に特化したオープンソースLLMファミリーです。開発元はDeepReinforceで、Gemma 4とQwen 3.5をベースにポストトレーニングされています。

ラインナップは次の4種類です。

モデル 構成 主な用途
Ornith-1.0-9B Dense エッジ・単一GPU向け
Ornith-1.0-31B Dense 汎用ミドルレンジ
Ornith-1.0-35B MoE 低コストで高効率
Ornith-1.0-397B MoE 最高性能

全チェックポイントはMITライセンスでHugging Faceから入手できます。商用利用の制約が少ない点は、オープンウェイトモデルを社内導入したいチームにとって大きな利点です。

固定ハーネスが抱える課題

コーディングエージェントは、LLMに加えてハーネス(スキャフォールド)と呼ばれる制御層を使います。ハーネスはメモリ管理、ツール呼び出し、エラー処理、タスクの段階的な進行を担います。

従来の強化学習訓練では、このハーネスを人間が設計し、固定したままモデルの回答だけを最適化します。タスクの種類が増えるほど、ハーネス設計のコストが膨らみ、モデルが学習できる探索パターンもハーネスの設計に縛られます。

自己スキャフォールド型RLの仕組み

Ornith-1.0の核心は、ハーネスを学習対象に含める自己改善型訓練フレームワークです。各RLステップは2段階で進みます。

  1. タスクと過去のスキャフォールドを入力し、改良版スキャフォールドを生成する
  2. そのスキャフォールドとタスクを入力し、解答ロールアウトを生成する

ロールアウトから得た報酬は両段階に伝播するため、モデルは答えの質だけでなく、答えを引き出すための制御ロジックも同時に学習します。訓練が進むと、高報酬のスキャフォールドが選別・変異され、タスクごとの戦略が自動的に形成されます。

長いロールアウトによるオフポリシー問題には、パイプラインRLとトークン鮮度に応じた重み付け(staleness weight)で対処しています。

リワードハッキングへの3層防御

スキャフォールドをモデル自身が書けるようにすると、検証をすり抜ける行為(テストファイルを読んで期待値をハードコードするなど)のリスクが生じます。Ornith-1.0は3層の防御でこれを抑えます。

  • 固定トラスト境界: 環境・ツール面・テスト分離は変更不可とし、モデルが進化できるのは内部ポリシースキャフォールド(メモリ、エラー処理、オーケストレーション)のみ
  • 決定論的モニター: 隠しパスへの読み取りや検証スクリプトの改変を検知し、該当トラジェクトリの報酬をゼロにする
  • 凍結LLMジャッジ: 検証器の上に置いたベトー機構として、許可されたツール面内での意図的な不正も排除する

ベンチマーク結果

DeepReinforceの公式ブログに掲載された評価結果を見ると、同規模のオープンソースモデルでトップクラスの数値が出ています。

Ornith-1.0-397B(フラッグシップ)

  • Terminal-Bench 2.1: 77.5点(Claude Opus 4.7は70.3点)
  • SWE-Bench Verified: 82.4点(Claude Opus 4.7は80.8点)

同規模のMiniMax M3(TB 66.0点、SWE 80.5点)やDeepSeek-V4-Pro(TB 67.9点、SWE 80.6点)も上回っています。一方、Claude Opus 4.8(TB 85.0点、SWE 87.6点)やGLM-5.2-744B(TB 81.0点)には及びません。クローズドモデルの最前線には届かないものの、オープンソース同士の比較では明確な優位があります。

Ornith-1.0-35B(MoE)

35B MoEながらTerminal-Bench 2.1で64.2点、SWE-Bench Verifiedで75.6点を記録しました。トークンあたり約3Bパラメータしか活性化しないMoE構成のため、推論コストを抑えつつ高い性能を出せます。

Ornith-1.0-9B(エッジ向け)

BF16で約19GB、80GB GPU1枚で動作します。Terminal-Bench 2.1で43.1点、SWE-Bench Verifiedで69.4点で、31B規模のGemma 4-31B(TB 42.1点、SWE 52.0点)と同等以上の結果です。リソース制約のある環境でもエージェント型コーディングを試せる選択肢になります。

評価対象にはTerminal-Bench 2.1、SWE-Bench(Verified/Pro/Multilingual)、NL2Repo、ClawEvalなどが含まれます。

使い方と互換性

Ornith-1.0は推論モデル(reasoning model)で、回答前に思考ブロックを出力します。vLLM 0.19.1以上、SGLang 0.5.9以上、Transformers 5.8.1以上で提供される推論パーサーとツールコールパーサーを使うと、思考過程をreasoning_contentフィールドに分離し、<tool_call>ブロックをOpenAI形式のtool_callsとして扱えます。

vLLMで9Bモデルを立ち上げる基本コマンドは次のとおりです。

vllm serve deepreinforce-ai/Ornith-1.0-9B \
    --served-model-name Ornith-1.0-9B \
    --max-model-len 262144 \
    --enable-auto-tool-choice --tool-call-parser qwen3_xml \
    --reasoning-parser qwen3 \
    --trust-remote-code

OpenAI互換エンドポイントを提供するため、既存のコーディングCLIやエージェントフレームワークにOPENAI_BASE_URLを差し替えるだけで接続できます。MCPサーバー経由のツール連携例もGitHubリポジトリに掲載されています。

推奨サンプリングパラメータはtemperature=0.6、top_p=0.95、top_k=20です。ベンチマーク再現時はtemperature=1.0を使います。

既存のコーディングモデルとの違い

Qwen 3.5やGemma 4の汎用モデルと比べ、Ornith-1.0はエージェント型コーディング向けのポストトレーニングと自己スキャフォールド型RLが加わっています。同じベースモデルから派生していても、Terminal-BenchやSWE-Benchでは大きな差が出ています。

Claude Opus 4.7のようなクローズドモデルと比較すると、397B版は主要ベンチマークで同等以上のスコアを示しました。ただしOpus 4.8やGLM-5.2-744Bには及ばず、最上位性能を求める場合は引き続きクローズドモデルの選択肢が残ります。

差別化の本質は訓練手法にあります。ハーネス設計を人手に頼らず、モデルがタスクに応じた制御ロジックを自力で発見する点が、今後のオープンソースコーディングモデルの方向性を示しています。