Tencentが示すLLM進化の2軸と次世代エージェント設計

LLMの進化は、応答の速さを競う段階から、考え抜く力と作業環境の持続性を備えたシステムへ移りつつあります。Tencent YouTu LabがYoutu-LLMとYoutu-Agentの研究を通じて示した整理では、モデル層とシステム層の2軸でこの変化を捉えています。

この記事では、Tencent YouTu Labが提示するLLM進化の分類フレームワークと、その背景にある技術的な根拠を解説します。

この記事でわかること

LLM進化を整理する「推論コア化」と「ワークスペース化」の2軸
Youtu-LLMが推論モードと通常モードを切り替える設計思想
Youtu-Agentが環境・ツール・エージェントを分離する理由
一時的なチャットエージェントから永続的な作業基盤へ移る業界の流れ

チャットボットの限界が露わになった背景

初期のLLMは、質問に即座に答える「高速応答モデル」として普及しました。応答速度は快適ですが、複数ステップの調査やファイル操作、長時間にわたるタスク管理には向きませんでした。会話が終われば文脈も消え、エージェントは毎回ゼロから立ち上がる「一時的な存在」にとどまります。

Tencent YouTu Labは、この課題をモデルとシステムの両面から捉え直しています。モデル側では推論能力を中核に据え、システム側ではファイルやブラウザ、シェルといった実行環境を持続させる設計へ進んでいます。

第1軸：高速応答モデルから推論コアへ

第1の軸は、即答型のLLMから「熟考型の推論コア」への移行です。推論コアとは、回答を出す前に計画・分析・反省といった思考プロセスを内包するモデルのことです。

https://arxiv.org/abs/2512.24618

Youtu-LLMの技術レポート（arXiv:2512.24618）では、1.96Bパラメータの軽量モデルがゼロから学習され、推論と計画能力を体系的に培う設計が示されています。学習データは約11兆トークンで、段階的に一般常識からSTEM・エージェントタスクへ比重を移す「Commonsense-STEM-Agent」カリキュラムを採用しています。さらに200Bトークン超のエージェント軌跡データで、数学・コーディング・ツール利用の行動パターンを事前学習段階から組み込んでいます。

推論の構造化には「Agentic-CoT」という手法も登場します。従来の長い連鎖思考（CoT）を、分析・計画・実行・反省・要約の5段階に分解して学習させる方式です。冗長な繰り返しを削りながら、論理構造を保つ狙いがあります。

https://huggingface.co/tencent/Youtu-LLM-2B

実運用では、Youtu-LLM-2Bのenable_thinkingパラメータで推論モードと通常モードを切り替えられます。推論モード（enable_thinking=True）はChain of Thought（CoT）を有効にし、複雑な論理タスク向けです。通常モード（False）は思考過程を省略して直接回答し、単純な会話では応答を速くします。同じモデルが「速さ」と「深い思考」を使い分ける設計になっています。

ベンチマークでも推論コア化の効果が数値で確認できます。Youtu-LLM-2BはGAIA（深層調査タスク）で33.9%、SWE-Bench-Verifiedで17.7%を記録し、パラメータ数が大きいQwen3-4B（GAIA 25.5%、SWE-Bench 5.7%）を上回っています。軽量でもエージェント向け推論を内包すれば、大規模モデルに迫る成果が出せることを示しています。

第2軸：一時エージェントから永続ワークスペースへ

第2の軸は、会話ごとに消えるエージェントから、状態を保持する「永続的なワークスペースシステム」への移行です。ワークスペース型AIとは、ファイル・ブラウザ・ターミナルなどの実行環境と記憶を一体化し、タスクをまたいで作業を継続できる仕組みを指します。

https://arxiv.org/abs/2512.24615

Youtu-Agentの論文（arXiv:2512.24615）では、Environment（実行環境）・Toolkits（ツール群）・Agent（推論・行動）の3層を分離するモジュール設計が掲げられています。ShellLocalEnvはローカルファイルシステムへ、BrowserEnvはWeb操作へアクセスします。エージェントはこの環境の中で知覚・推論・行動のループを回し、Context Managerが長い対話でも不要な情報を削って状態を維持します。

一時的なエージェントとの違いは、作業の「場」が残る点にあります。チャットウィンドウを閉じても、ファイルの変更履歴やブラウザの状態、蓄積された経験が次のセッションに引き継がれます。Youtu-AgentのAgent Practiceモジュールは、パラメータ更新なしで実行時に経験を蓄積し、コンテキスト内の最適化で性能を高めます。DeepSeek-V3.1-TerminusではAIME 2024で+2.7%、AIME 2025で+5.4%の改善が報告されています。

https://github.com/TencentCloudADP/youtu-agent

フレームワークはオープンソースで公開されており、WebWalkerQAで71.47%、GAIA（テキストのみ検証セット）で72.8%のpass@1を記録しています。Meta-Agentモードではタスク記述からツールコードやYAML設定を自動生成し、ツール合成の成功率は81%超です。手作業でエージェントを組み立てる「職人型」開発から、設定を再利用・合成する方式へ移っています。

オンデバイス向けのYoutu-Tipは、Youtu-AgentをmacOS上で動かす永続アシスタントとして位置づけられています。Ollama経由のローカルモデルでファイル読み取りやWeb閲覧を自動化し、プライバシーを保ったまま作業環境に常駐します。一時的なチャットボットではなく、ユーザーのデスクトップに根ざしたワークスペースの具体例です。

Cognitive Kernelが示す3層構造

Tencentのエージェント研究には、Youtu-Agent以前からCognitive Kernelという設計思想もあります。arXiv:2409.10277の論文では、reasoning kernel（推論）、perception kernel（知覚）、memory kernel（記憶）の3コンポーネントで自律システムを構成する案が示されています。

推論カーネルが次の行動を計画し、知覚カーネルが環境状態を取得し、記憶カーネルが過去の情報を保存・検索する。この分業は、Youtu-AgentのEnvironment・Agent・Context Managerの構造と重なります。LLMエージェントの進化は、単一の巨大モデルではなく、役割分担されたカーネルとワークスペースの組み合わせへ向かっていると読めます。

開発者と利用者への示唆

2軸の整理が意味するのは、LLM選定とシステム設計を分けて考える必要性です。モデル選びでは推論モードの有無やエージェント軌跡での学習状況を確認します。システム設計では、実行環境の永続性、ツールの再利用性、経験の蓄積機構を評価します。

高速応答だけを求める場面では通常モードで十分です。調査・コーディング・ファイル整理のように複数ステップが必要な場面では、推論コアとワークスペースの両方が効いてきます。Tencent YouTu Labの研究群は、この使い分けを技術スタック全体で実装する方向を示しており、今後のエージェント製品の設計指針として参照する価値があります。