SkillGradでLLMエージェント手順書を勾配降下式最適化

手順書を渡したのに、エージェントの正解率が下がる——そんな逆説が、スキル設計の現場で起きうる。ペンシルバニア州立大学の研究チームが公開したSkillGradは、この問題を機械学習の勾配降下法に見立て、手順書型スキルを反復改善する枠組みだ。

この記事では、SkillGradの背景・仕組み・検証結果を整理する。

この記事でわかること

エージェントスキルが失敗しやすい構造的理由
勾配降下法アナロジーが成り立つ5段階ループ
SpreadsheetBenchでの精度改善と学習コスト

SkillGrad: Optimizing Agent Skills Like Gradient Descent

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowled…

arXiv.org

GitHub - wwwhy725/SkillGrad: SkillGrad: Optimizing Agent Skills Like Gradient Descent

SkillGrad: Optimizing Agent Skills Like Gradient Descent - wwwhy725/SkillGrad

GitHub

手順書型スキルは「一度書いたら終わり」では足りない

LLMエージェントは、スプレッドシート操作やコード保守など、手順が重い領域で専門知識を求められる。Agent Skills（エージェントスキル）は、YAMLメタデータ、SKILL.md本体、追加リソースファイルからなる構造化パッケージとして、この手順知識をファイルに保存する方式だ。

先行研究SkillsBenchでは、自動生成スキルが専門家作成より劣るだけでなく、スキルなしより性能を下げるケースも報告されている。SkillGradの論文でも、LLM生成のxlsx向けスキルをそのまま使うと、GPT-5.4では正解率が62.50%から55.83%に下がった。手順書を一度書いただけでは、エッジケースの欠落や古い前提が残りやすい。

SkillGradはスキル全体を「パラメータ」として扱う

SkillGradは、スキルパッケージを最適化対象の構造化パラメータとみなし、勾配降下法の各段階に対応する5モジュールで改善ループを回す。

勾配降下法	SkillGrad
パラメータ θ	スキルパッケージ S = (H, B, Q)
損失根拠	タスク成否＋実行軌跡
勾配	タスクごとのテキスト診断
モメンタム	パターン記憶 M とオーバーレイ O
パラメータ更新	レイヤー別スキルパッチ

HはL1のYAMLメタデータ、Bは常時読み込まれるL2のSKILL.md、Qは条件付きで読み込むL3リソースだ。更新時には「何を書くか」だけでなく「どの層に置くか」も決める。汎用ルールをL3に隠すと実行時に読まれず、個別手順をL2に詰め込むと無関係タスクでノイズになる。

失敗軌跡と成功軌跡の両方を損失根拠に使う

既存のEvoSkillなど多くのスキル改善手法は、失敗実行の反省に偏る。SkillGradは二元損失（正解0/不正解1）を最終評価に使いつつ、更新根拠はもっと厚く取る。

失敗時は現在スキル下の失敗軌跡と評価フィードバックを診断材料にする。成功時は、初期スキルでは失敗していた同一タスクで現在成功した軌跡を、初期失敗軌跡と対比する。正解しても「何が変わったか」は学習信号になりうるため、失敗のみの更新より情報が残る。

診断結果はタスクごとのテキスト勾配として集約され、モメンタムエージェントが反復をまたいで繰り返し現れるパターンを記憶する。最後にパッチャーが、タスク個別の追記ではなく共通化した修正をスキル階層に反映する。

SpreadsheetBenchで既存手法を上回る

評価はスプレッドシート操作ベンチマークSpreadsheetBench Verifiedと、ドメイン外転移用のWikiTableQuestionsで行った。バックボーンはGPT-5.4とGPT-4.1、初期スキルはLLM生成版と第三者提供版の2系統だ。

LLM生成スキル起点では、SkillGradはGPT-5.4で71.11%、GPT-4.1で54.17%を記録した。Training-based Baselineの平均よりそれぞれ4.44ポイント、16.95ポイント高い。最強Baseline（EvoSkill等）との平均差は6.7ポイント。GPT-4.1ではTrace2Skill・EvoSkillがともに37.22%に留まり、SkillGradとの差が顕著だった。

第三者スキル起点でも同傾向だ。GPT-5.4でSpreadsheetBenchは60.00%から69.44%へ、WikiTableQuestionsは78.57%から83.34%へ改善した。WikiTableQuestionsでの伸びは、SpreadsheetBench向け手順がそのまま過学習しただけではないことの指標になる。

モメンタムと対比診断は欠かせない

アブレーションでは、GPT-5.4・LLM生成スキル設定でフルSkillGradが72.50%だった。モメンタムを外すと65.83%（-6.67ポイント）、対比診断を外して失敗のみにすると68.33%（-4.17ポイント）に落ちた。どちらも実行軌跡は使うが、反復間の安定化と成功事例の保全が効いている。

バッチサイズ4・10反復がデフォルトで、40タスクの訓練集合を1周する設計だ。反復10で72.5%がピークとなり、13反復目は70.0%まで下がった。テキスト更新は単調改善ではなく、追加修正が既存ルールと競合しうる。

学習コストは10反復で約6.40ドル

GPT-5.4での10反復フル実行は、3シード平均で6.40±0.38米ドル。反復1は約0.35ドル、反復10は約0.85ドルと段階的に増える。主因は、スキル本体と蓄積パターンを含むモメンタム・パッチ段階のプロンプト肥大化だ。モデル重みのファインチューニングは不要で、再利用可能なスキルファイルが成果物になる。

GitHubリポジトリでは、base_traj.shで失敗プール収集、train.shでSkillGrad学習、eval.shでheld-out評価という3コマンドのパイプラインが公開されている。初期スキルはseeds/xlsx/SKILL.mdが同梱され、別ディレクトリの手順書にも差し替え可能だ。

手順書改善の新しい設計指針

SkillGradが示すのは、エージェント運用における「スキルは生成物ではなく最適化対象」という位置づけだ。ヒューリスティックな1回きりの反省ではなく、実行根拠→診断→モメンタム→層別更新というループを明示的に回すことで、第三者スキルもLLM生成スキルも底上げできる。

論文自体はスプレッドシート中心の検証に留まる。Web操作やドキュメント編集へ転用するか、テキスト更新の安定性を形式化できるかは今後の課題だ。それでも、手順書ベースのエージェント設計を磨きたい開発者にとって、失敗と成功の両方を根拠に回す改善ループはそのまま実装の参照になる。