コーディングエージェントが「苦手なこと」を、自ら克服できるとしたら?

Sentient Labsが公開したオープンソースフレームワーク「EvoSkill」は、AIエージェントの実行失敗を解析してスキルを自動生成・改善するツールです。Claude Code、Codex CLI、OpenHandsなどに対応しており、2コマンドで使い始められます。

この記事でわかること:

  • EvoSkillがどのような課題を解決するか
  • 失敗から学ぶ仕組みとスキルの再利用性
  • OfficeQAとSealQAでのベンチマーク改善幅
  • インストールから実行までの手順

コーディングエージェントが持つ「汎用すぎる」問題

https://github.com/sentient-agi/EvoSkill

Claude CodeやOpenHandsのようなコーディングエージェントは、多くのタスクをこなせます。ただし特定ドメインのタスク——財務書類の解析や複雑な検索推論など——になると、汎用能力だけでは精度が下がりやすいです。

これまでこの問題に対処するには、専門家が「スキル」(タスクをこなすためのワークフローや補助コード)を手作業で設計する必要がありました。スキルはモデルや課題が変わるたびに作り直しが必要で、設計コストが高い点が課題でした。

EvoSkillはこのスキル設計をまるごと自動化します。

失敗ログを起点に自己進化するサイクル

EvoSkillは「失敗した実行」を価値ある情報として使います。エージェントがタスクを試みて誤答するたびに、その軌跡を収集・分析し、どこで判断を誤ったかを特定します。次に新しいスキルの候補や既存スキルの修正案を複数生成し、ホールドアウト検証データで評価します。

パフォーマンスを向上させたスキルだけがパレートフロンティアとして保持され、次のイテレーションに引き継がれます。モデルの重みは変更せず、スキルフォルダを更新するだけでエージェントの能力が段階的に伸びていきます。

スキルは他のエージェント・モデルにも転用できる

生成されたスキルはフォルダ単位でパッケージ化されており、異なるエージェントや異なるモデルにそのまま持ち込めます。研究論文(arXiv:2603.02766)では、SealQA向けに進化させたスキルをBrowseCompに持ち込んだところ、修正なしで5.3%の精度向上を確認しています(参考)。スキルが特定タスク専用の丸暗記ではなく、汎用的な推論パターンを学習していることを示す結果です。

対応エージェントとモデル

現時点でEvoSkillが動作するエージェントは次の5つです。

エージェント 備考
Claude Code そのまま動作
OpenCode v1.4.0以上が必要
OpenHands JSONフォールバックで動作
Goose v1.25.0以上が必要
Codex CLI スキルはsymlinkで参照

バックエンドのLLMはOpenRouter、Anthropic、OpenAI、Fireworksに対応しています。Claude、GPT、Gemini、Qwenなど主要モデルすべてを選択できます。

ベンチマーク上の改善幅

公式論文で報告されている検証結果は2つあります。

OfficeQA(米国財務省データを使った文書推論タスク)では、Claude Code + Opus 4.5の正答率が60.6%から67.9%に向上し、7.3ポイント改善しました。

SealQA(ノイズを含む検索結果を使ったQAタスク)では26.6%から38.7%になり、12.1ポイント改善しています。どちらも少量のトレーニングサブセットのみを使用した結果です。

インストールと使い方

Python 3.12以上とuv(またはpip)が必要です。

# インストール
uv sync

# Claude Codeハーネスを使う場合
brew install --cask claude-code

export ANTHROPIC_API_KEY=your-key-here

プロジェクトフォルダ内で初期化し、実行します。

evoskill init   # ハーネス・データセット・設定を対話形式で入力
evoskill run    # 進化ループを開始

evoskill initでは使用するエージェント(claude、opencode、gooseなど)、進化モード(スキルのみ、またはスキル+プロンプト)、データセットのCSVパス、質問・回答の列名を順に入力します。設定は.evoskill/config.tomlに保存されます。

ライセンスはApache 2.0で、商用利用も含めて制限なく使えます。

現状の制約

ベンチマークなしでの進化や、通常の使用ログから継続的に改善し続ける機能はまだ研究段階です。現状は質問と正解のペアが入ったCSVという形でのデータセット準備が必要です。データが手元にないユーザーは最初のセットアップにひと手間かかります。

進化ループはLLMを使った評価を繰り返すため、APIコストが発生します。使用するモデルのAPI料金を事前に確認してから試すのが安心です。

まとめ

EvoSkillは「エージェントに自分の弱点を直させる」というアプローチを実用ツールとして形にしたフレームワークです。既存のコーディングエージェントをそのまま使いながら、特定ドメインの精度を上げる手段として選択肢に入れる価値があります。Claude Code、OpenHands、Gooseなど複数のエージェントで今日から試せます。