LLMエージェントの性能を上げたい。でもファインチューニングにはGPUもデータも時間もかかる。Tencent Youtu Labが発表した「Training-Free GRPO」は、パラメータを一切更新せずにエージェントの出力品質を改善する手法です。コストはわずか約8ドル、必要なサンプル数は数十件。従来の強化学習が抱えていたコストとデータの壁を正面から崩す研究として注目されています。
この記事でわかること:
- Training-Free GRPOが解決する課題と仕組み
- 元になったGRPOとの違い
- 数学推論・Web検索タスクでの実験結果
- OSSフレームワーク「Youtu-Agent」での使い方
LLMエージェントの「ファインチューニング地獄」
https://arxiv.org/abs/2510.08191
GPT-4oやDeepSeek-V3のような大規模モデルは汎用的な能力が高い一方、特定の業務領域ではツール連携やプロンプト設計の最適化が追いつかず、性能が落ちる場面があります。
この問題に対する従来のアプローチは、SFT(教師ありファインチューニング)で基礎的な振る舞いを学ばせた後、GRPO(Group Relative Policy Optimization)などの強化学習でさらに出力分布を調整する方法です。GRPOはDeepSeek-R1の学習にも使われた手法で、PPO(Proximal Policy Optimization)のようなバリュー関数を不要にし、グループ内の出力同士を比較して相対的な優劣から学習します。
ただし、この方法には3つの実務上の壁があります。パラメータ更新に大量のGPUリソースが必要なこと、ドメイン特化の学習データが不足しがちなこと、そして少量のデータで学習すると過学習に陥りやすいことです。APIとして提供されるモデルの場合、そもそもパラメータにアクセスできないという根本的な制約もあります。
Training-Free GRPOの仕組み
Training-Free GRPOは、モデルのパラメータを一切変えずに出力品質を改善します。核となるアイデアは「トークン事前分布(token prior)」の学習です。
従来のGRPOは、グループ内の各出力にスカラーの報酬値を割り当て、その数値的な優劣でモデルを更新していました。Training-Free GRPOはここを変えます。数値ではなく「意味的な優劣(semantic advantage)」をグループ内で評価し、高品質な出力パターンを「経験知識」として蒸留します。
具体的な流れは次のとおりです。まず少量の正解データ(数十件)を用意し、モデルに複数の回答を生成させます。次に、グループ内の回答を意味レベルで比較し、良い回答に共通するパターンを抽出します。これを「トークン事前分布」として保存し、以降のAPI呼び出し時にモデルの出力を誘導します。このプロセスを複数エポック繰り返すことで、経験知識が蓄積され、性能が段階的に向上します。
パラメータの更新が不要なため、APIモデルにもそのまま適用できる点が大きな利点です。
実験結果
論文ではDeepSeek-V3.1-Terminusに適用した結果が報告されています。
数学推論タスクでは、AIME 2025で+5.4%の改善を記録しました。Web検索タスクでも、ドメイン外のデータに対して性能が大幅に向上しています。注目すべきは、ファインチューニングされた小型LLMよりも高い性能を、パラメータ更新なし・わずか数十件のサンプル・約8ドルのコストで実現している点です。
従来の強化学習パイプラインではSFTの段階だけでも数百GPU時間を要することがあります。Training-Free GRPOはその工程をまるごとスキップできるため、実験のサイクルが桁違いに速くなります。
Youtu-Agentフレームワーク
https://github.com/TencentCloudADP/youtu-agent
Training-Free GRPOは、Tencent Youtu Labが開発するオープンソースのエージェントフレームワーク「Youtu-Agent」に統合されています。Agent Practiceモジュールとして実装されており、設定を追加するだけでエージェントの継続的な性能改善が可能です。
Youtu-Agent自体も高い実績を持っています。Web検索ベンチマークのWebWalkerQAでは71.47%、マルチステップ推論ベンチマークのGAIAでは72.8%を記録し、オープンソースモデル(DeepSeek-V3)のみでの最高水準に達しています。
フレームワークはOpenAI Agents SDKをベースに構築されており、YAML設定でエージェントを定義できます。ツールやプロンプトの自動生成機能も備えており、タスクを自然言語で記述するだけでエージェント構成が生成されます。Python 3.12以上の環境があれば、GitHubからクローンしてすぐに試せます。
従来手法との位置づけ
LLMエージェントの性能改善手法は、大きく3つに分かれます。プロンプトエンジニアリング、ファインチューニング(SFT + RL)、そしてTraining-Free GRPOのようなインコンテキスト最適化です。
プロンプトエンジニアリングは手軽ですが、複雑なタスクでは限界があります。ファインチューニングは効果が高い一方、コストとデータの要件が厳しくなります。Training-Free GRPOはその中間を埋める位置づけです。プロンプトの調整より体系的で、ファインチューニングよりはるかに低コスト。APIモデルにも適用できるため、実務でモデルのパラメータに手を出せないケースでも使えます。
論文は2025年10月に公開され、実装は同年11月にYoutu-Agentのメインブランチに統合されました。今後、対応タスクの拡大や他フレームワークへの応用が進む可能性があります。