LLMにツールを足しただけでは、エージェントにはなりません。

2026年6月24日、データサイエンス教育者のMatt Dancho氏がXで「The Fundamentals Of Building Autonomous LLM Agents」という38ページのPDF資料を紹介しました。自律型LLMエージェントの設計を体系的に学べる学習資料として、開発者の間で注目を集めています。本稿では、その資料の中身と、実務で押さえるべきポイントを整理します。

この記事でわかること

  • 自律型LLMエージェントを構成する4つのコアシステム
  • ワークフローとエージェントの決定的な違い
  • OSWorldベンチマークが示す、現行モデルと人間の性能差
  • 推論・記憶・実行で使われる主要な設計パターン

https://arxiv.org/pdf/2510.09244

なぜ「エージェント設計」の資料が必要か

チャットボット型のLLMは、長期記憶の欠如や外部ツールとの自律的な連携の難しさから、現実世界の複雑なタスクには不向きです。論文の著者らは、モジュールやツールを追加しただけではエージェントではなく「ワークフロー」にとどまると指摘しています。

ワークフローは設計者が定めた手順を順に実行する仕組みです。途中でエラーが起きても動的に再計画する能力を持ちません。一方、エージェントは環境からのフィードバックに応じて自ら戦略を立て、Chain-of-Thought(CoT)などの推論技法で問題を分解し、失敗から回復します。

この違いを理解せずに開発を進めると、見た目はエージェントでも実態は固定手順の自動化に留まります。Matt Dancho氏が共有した資料は、こうした混乱を解きほぐすための設計図として位置づけられます。

資料の概要と出所

紹介されたPDFは、arXivに公開されているレビュー論文「Fundamentals of Building Autonomous LLM Agents」(arXiv:2510.09244)です。2025年10月10日に投稿され、ミュンヘン工科大学(TUM)の講座「Trends in Autonomous Agents: Advances in Architecture and Practice」のセミナー技術報告書を基にしています。

著者はVictor de Lamo Castrillo氏(カタルーニャ工科大学)、Habtom Kahsay Gidey氏、Alexander Lenz氏、Alois Knoll氏(いずれもTUM)の4名です。Matt Dancho氏自身は著者ではなく、LLMエンジニア向けの学習リソースをキュレーションする立場からこの資料を紹介しました。

全38ページにわたり、知覚・推論・記憶・実行の4システムを軸に、実装パターンと課題を横断的に整理しています。

4つのコアシステム

資料が提示するエージェントの骨格は、人間の認知プロセスを模した4つのサブシステムです。

知覚システム(Perception)

環境からの情報をLLMが理解できる形式に変換する部分です。アプローチは4種類に分類されます。

  • テキストベース: 環境がテキストで記述される場合。計算コストが低い一方、視覚情報は扱えません
  • マルチモーダル: 画像や動画を処理するVision-Language Model(VLM)やMultimodal LLM(MM-LLM)を利用。GUI操作に不可欠です
  • 構造化データ: アクセシビリティツリーやHTMLを解析し、画面要素の意味を正確に把握します
  • ツール拡張: Web検索APIやコード実行環境を通じて、リアルタイムの情報を取得します

GUI自動化の例では、スクリーンショットへのSet-of-Mark(SoM)注釈とアクセシビリティツリーを組み合わせ、ボタンやテキストフィールドの位置と意味を同時に把握する構成が紹介されています。

推論システム(Reasoning)

タスクを分解し、計画を立て、フィードバックに応じて修正する中枢です。

タスク分解には、全体を先に分割する「Decomposition first」(HuggingGPT、Plan-and-Solve)と、状態に応じて逐次分解する「Interleaved decomposition」(CoT、ReAct)があります。DPPM(Decompose, Plan in Parallel, and Merge)は、サブタスクごとに並列で計画を生成し統合する手法で、逐次計画のエラー連鎖を抑えます。

複数案の生成・選択では、Self-consistent CoT、Tree-of-Thought(ToT)、Graph of Thoughts(GoT)、LLM-MCTSなどが解説されています。Reflection(自己反省)では、実行後にActor・Evaluator・Self-Reflection Modelの3要素で行動を評価し、言語フィードバックとして次の試行に活かす枠組みが示されています。DEVIL’S ADVOCATEと呼ばれる先読み型の反省では、実行前に失敗を想定して計画を修正します。

マルチエージェント構成では、計画・反省・エラー処理・記憶管理・アクション実行の各専門エキスパートに役割を分担する設計が提案されています。

記憶システム(Memory)

長期記憶と短期記憶の2層で構成されます。

長期記憶の実装には、ファインチューニングによるEmbodied Memory、外部知識ベースから関連文書を検索するRAG(Retrieval-Augmented Generation)、構造化データを保持するSQLデータベースがあります。短期記憶はLLMのコンテキストウィンドウ内で動作し、長い入力はチャンク化や要約で圧縮します。

保存すべきデータの種類として、成功・失敗の両方を含む経験ログ、再利用可能な手順(Agent Workflow Memory)、外部ファクト、ユーザー個人情報が挙げられます。失敗体験を明示的に記録することで、同じ過ちを繰り返さない学習が可能になると論文は述べています。

実行システム(Execution)

内部の意思決定を環境への具体的な行動に変換する層です。

JSON形式のツール呼び出しによるAPI連携が基本です。マルチモーダルな実行空間では、GUI操作(マウスクリックやキーボード入力)、動的なコード生成・実行、ロボット制御APIとの連携がカバーされます。視覚処理と物理アクションのタイミング差によるレイテンシや、知覚・計画・実行の各段階でのエラー伝播が、統合時の主要な課題として整理されています。

現実の性能ギャップ

資料は楽観論だけではなく、現状の限界も具体的な数値で示しています。OSWorldベンチマーク(実際のOS環境でのオープンエンドタスク)では、人間のタスク完了率は72.36%を超える一方、2025年6月時点の最先端モデルは約42.9%にとどまります。

エージェントが直面する典型的な失敗として、GUI上の座標特定の誤り、同じ操作のループ、想定外のポップアップへの対処不能、探索能力の不足が挙げられます。Set-of-Markのような手法は知覚精度を上げますが、行動空間を制限して探索を妨げる副作用もあると警告しています。

誰に向いているか

この資料は、フレームワークの使い方を学ぶ入門書ではありません。AutoGenやCrewAIのようなツールの操作手順より、エージェントを「どう設計するか」というアーキテクチャの選択肢を俯瞰したい開発者に適しています。

WebArena、Mind2Web、OSWorldといった評価ベンチマークの位置づけや、CoT・ReAct・RAG・Reflectionといった技法のトレードオフを一通り押さえたい場合、38ページという分量は実用的な入門から中級への橋渡しになります。Matt Dancho氏のLLM-engineer-handbookリポジトリと併せて読むと、理論と実践リソースの両面をカバーできます。

自律型LLMエージェントの開発は、単一のプロンプトやフレームワーク選定では完結しません。知覚・推論・記憶・実行の4層を意識した設計が、ワークフローとの境界線を引き、実用に耐えるエージェントへの第一歩になります。