Google ResearchのReasoningBankとは失敗から学ぶAIエージェント記憶層

AIエージェントは、1回うまく動いても次のタスクで同じ失敗を繰り返しがちです。ReasoningBankは、この弱点を正面から潰すための記憶フレームワークです。

この記事では、ReasoningBankが何を保存し、どう学習し直し、どこで効くのかを整理します。

失敗した履歴も学習材料にする仕組み
従来の軌跡保存との違い
WebArenaやSWE-Bench-Verifiedで示された効果
実運用で見える導入の勘所

ReasoningBank: Enabling agents to learn from experience

ReasoningBankが解決する問題

AIエージェントの課題は、賢さそのものよりも「経験の使い方」にあります。多くのエージェントは、タスクを終えるたびに会話や操作履歴を残せますが、そのままだと生の記録が増えるだけです。似た場面に戻ったとき、必要なのはログではなく、次にどう判断すべきかという要点です。

ReasoningBankはここを変えます。成功した流れだけでなく、失敗した流れも取り込みます。そこから一般化できる判断基準や注意点を抽出し、次回の推論に使える形へ圧縮します。要するに、履歴保管ではなく、経験の編集です。

何を記憶するのか

ReasoningBankが扱うのは、細かい操作列そのものではありません。Google Researchの説明では、タイトル、説明、内容を持つ構造化メモリとして、再利用しやすい戦略を残します。

この設計が重要です。たとえば「Load Moreボタンを押した」という事実だけを覚えても、別のサイトでは役に立ちません。一方で、「ページ識別子を先に確認し、無限スクロールの罠を避ける」といった判断ルールなら、別のタスクにも持ち込めます。

つまりReasoningBankは、操作の記録ではなく、失敗から抽出した防御的な思考パターンを貯める仕組みです。ここに実用上の価値があります。

どう動くのか

ReasoningBankの流れは、取得、抽出、統合の循環です。タスク開始前に関連メモリを呼び出し、実行中はその知見を参照します。終了後は、結果を自己評価して、新しい学びをメモリに追加します。

このとき重要なのが、LLM-as-a-judgeによる自己評価です。判定が完全でなくても、ReasoningBankはある程度のノイズに強いとされています。評価が完璧でなくても、使える示唆を拾って次に残せる設計です。

従来型のワークフロー記憶は、成功例をきれいにまとめることに寄りがちでした。ReasoningBankはそこから一歩進み、失敗を反面教師として扱います。ここが継続学習の核です。

MaTTSで何が増えるのか

ReasoningBankには、memory-aware test-time scaling、略してMaTTSという考え方が組み合わされています。test-time scalingは、推論時に計算量を増やして探索を広げる方法です。ReasoningBankは、その探索結果を次の学習材料として再利用します。

Google Researchの評価では、ReasoningBankはWebArenaで8.3%、SWE-Bench-Verifiedで4.6%の成功率改善を示しました。さらにSWE-Bench-Verifiedでは、1タスクあたりの実行ステップを約3つ削減しています。MaTTSを加えると、WebArenaでさらに成功率が3%上がり、ステップ数も0.4減りました。

ここで見えるのは、単純な精度向上だけではありません。無駄な探索が減り、エージェントの行動が締まります。長時間動くエージェントほど、この差は効いてきます。

既存のメモリ方式との違い

従来のエージェント記憶は、履歴を残すこと自体が目的になりやすいです。だが、実務で必要なのは「次に同じ失敗をしないこと」です。ReasoningBankは、この目的に合わせて記憶の粒度を変えています。

違いを短く言うと、次の通りです。

Trajectory Memoryは、何をしたかを重視します
Workflow Memoryは、うまくいった手順を重視します
ReasoningBankは、成功と失敗の両方から再利用可能な判断を抜き出します

この差は小さく見えて大きいです。エージェントが長く運用されるほど、手順の再現よりも、判断の蓄積が効くからです。

どんな場面で効くか

ReasoningBankが効きやすいのは、状態が変わる環境です。Web操作、ソフトウェア開発、調査、反復的な事務処理のように、毎回同じ答えでは済まない領域です。

特に相性がいいのは、失敗のコストが高いタスクです。ページ遷移の見落とし、フィルタ条件の取り違え、途中状態の誤認などは、一度のミスより再発のほうが厄介です。ReasoningBankは、その再発防止に向いています。

一方で、万能ではありません。メモリの質が低ければ、間違った教訓を貯めます。自己評価が甘ければ、誤った戦略が正解として残る危険もあります。だからこそ、導入時は「何を学習させるか」を絞る必要があります。

実務で見るべきポイント

ReasoningBankを使うなら、まず観点を3つに絞るべきです。

失敗ログから何を抽出するか
どのタスクで再利用するか
誤学習をどう抑えるか

この3つが定まると、単なる記録係ではなく、改善サイクルとして回ります。逆にここが曖昧だと、メモリが増えるだけで成果につながりません。

ReasoningBankの価値は、エージェントを一発勝負の道具から、経験を持ち越す道具へ変える点にあります。AIエージェントを本番運用するなら、今後はモデルの賢さだけでなく、経験の貯め方が差になります。ReasoningBankは、その方向をかなり明確に示した発表です。