Training-Free GRPO 再学習なしでLLMエージェントを強化する方法

LLMエージェントの性能を上げたい。でもファインチューニングにはGPUもデータも時間もかかる。Tencent Youtu Labが発表した「Training-Free GRPO」は、パラメータを一切更新せずにエージェントの出力品質を改善する手法です。コストはわずか約8ドル、必要なサンプル数は数十件。従来の強化学習が抱えていたコストとデータの壁を正面から崩す研究として注目されています。

この記事でわかること：

Training-Free GRPOが解決する課題と仕組み
元になったGRPOとの違い
数学推論・Web検索タスクでの実験結果
OSSフレームワーク「Youtu-Agent」での使い方

LLMエージェントの「ファインチューニング地獄」

https://arxiv.org/abs/2510.08191

GPT-4oやDeepSeek-V3のような大規模モデルは汎用的な能力が高い一方、特定の業務領域ではツール連携やプロンプト設計の最適化が追いつかず、性能が落ちる場面があります。

この問題に対する従来のアプローチは、SFT（教師ありファインチューニング）で基礎的な振る舞いを学ばせた後、GRPO（Group Relative Policy Optimization）などの強化学習でさらに出力分布を調整する方法です。GRPOはDeepSeek-R1の学習にも使われた手法で、PPO（Proximal Policy Optimization）のようなバリュー関数を不要にし、グループ内の出力同士を比較して相対的な優劣から学習します。

ただし、この方法には3つの実務上の壁があります。パラメータ更新に大量のGPUリソースが必要なこと、ドメイン特化の学習データが不足しがちなこと、そして少量のデータで学習すると過学習に陥りやすいことです。APIとして提供されるモデルの場合、そもそもパラメータにアクセスできないという根本的な制約もあります。

Training-Free GRPOの仕組み

Training-Free GRPOは、モデルのパラメータを一切変えずに出力品質を改善します。核となるアイデアは「トークン事前分布（token prior）」の学習です。

従来のGRPOは、グループ内の各出力にスカラーの報酬値を割り当て、その数値的な優劣でモデルを更新していました。Training-Free GRPOはここを変えます。数値ではなく「意味的な優劣（semantic advantage）」をグループ内で評価し、高品質な出力パターンを「経験知識」として蒸留します。

具体的な流れは次のとおりです。まず少量の正解データ（数十件）を用意し、モデルに複数の回答を生成させます。次に、グループ内の回答を意味レベルで比較し、良い回答に共通するパターンを抽出します。これを「トークン事前分布」として保存し、以降のAPI呼び出し時にモデルの出力を誘導します。このプロセスを複数エポック繰り返すことで、経験知識が蓄積され、性能が段階的に向上します。

パラメータの更新が不要なため、APIモデルにもそのまま適用できる点が大きな利点です。

実験結果

論文ではDeepSeek-V3.1-Terminusに適用した結果が報告されています。

数学推論タスクでは、AIME 2025で+5.4%の改善を記録しました。Web検索タスクでも、ドメイン外のデータに対して性能が大幅に向上しています。注目すべきは、ファインチューニングされた小型LLMよりも高い性能を、パラメータ更新なし・わずか数十件のサンプル・約8ドルのコストで実現している点です。

従来の強化学習パイプラインではSFTの段階だけでも数百GPU時間を要することがあります。Training-Free GRPOはその工程をまるごとスキップできるため、実験のサイクルが桁違いに速くなります。

Youtu-Agentフレームワーク

https://github.com/TencentCloudADP/youtu-agent

Training-Free GRPOは、Tencent Youtu Labが開発するオープンソースのエージェントフレームワーク「Youtu-Agent」に統合されています。Agent Practiceモジュールとして実装されており、設定を追加するだけでエージェントの継続的な性能改善が可能です。

Youtu-Agent自体も高い実績を持っています。Web検索ベンチマークのWebWalkerQAでは71.47%、マルチステップ推論ベンチマークのGAIAでは72.8%を記録し、オープンソースモデル（DeepSeek-V3）のみでの最高水準に達しています。

フレームワークはOpenAI Agents SDKをベースに構築されており、YAML設定でエージェントを定義できます。ツールやプロンプトの自動生成機能も備えており、タスクを自然言語で記述するだけでエージェント構成が生成されます。Python 3.12以上の環境があれば、GitHubからクローンしてすぐに試せます。

従来手法との位置づけ

LLMエージェントの性能改善手法は、大きく3つに分かれます。プロンプトエンジニアリング、ファインチューニング（SFT + RL）、そしてTraining-Free GRPOのようなインコンテキスト最適化です。

プロンプトエンジニアリングは手軽ですが、複雑なタスクでは限界があります。ファインチューニングは効果が高い一方、コストとデータの要件が厳しくなります。Training-Free GRPOはその中間を埋める位置づけです。プロンプトの調整より体系的で、ファインチューニングよりはるかに低コスト。APIモデルにも適用できるため、実務でモデルのパラメータに手を出せないケースでも使えます。

論文は2025年10月に公開され、実装は同年11月にYoutu-Agentのメインブランチに統合されました。今後、対応タスクの拡大や他フレームワークへの応用が進む可能性があります。