Google DeepMind: ReasoningBank — 让 Agent 从经验中持续进化

MiaoDX

Google DeepMind: ReasoningBank — 让 Agent 从经验中持续进化

来源: Google Research Blog — ReasoningBank: Enabling agents to learn from experience 日期: 2026-04-21 论文: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory (ICLR 2026) 代码: github.com/google-research/reasoning-bank


一句话总结

ReasoningBank 是 Agent 记忆的范式升级 — 从"记录做了什么"到"提炼为什么这么做/不这么做",让 Agent 在测试时就能自我进化,成功率和效率双提升。


核心概念

现有 Agent 记忆的两大盲区

现有方法代表问题
轨迹记忆Synapse记录每一步动作,但无法提炼可迁移的策略
成功工作流记忆Agent Workflow Memory只记成功案例,忽略了失败中蕴含的学习价值

结果:Agent 每次遇到新任务都像第一次 — 重复犯错,浪费探索。

ReasoningBank 的结构性记忆

每个记忆条目包含三层:

记忆条目
├── Title: 核心策略的简洁标识
├── Description: 策略摘要
└── Content: 提炼的推理步骤、决策依据、操作洞察

关键差异:不是"点击了 Load More 按钮",而是"在尝试加载更多结果前,先验证当前页面标识符以避免无限滚动陷阱"。

这个设计非常聪明。现有记忆方法的问题不是"记得不够多",而是"记得不够抽象"。人类学习也不是记流水账,而是提炼模式。ReasoningBank 把 Agent 记忆从"日志"升级为"经验法则",这是认知层面的跃迁。


架构解析

闭环工作流:检索 → 提取 → 固化

任务输入

[检索] 从 ReasoningBank 召回相关记忆 → 注入上下文

[行动] Agent 与环境交互,执行操作

[评估] LLM-as-a-judge 自评估轨迹成败

[提取] 从轨迹中提炼新的结构化记忆(成功洞察 + 失败反思)

[固化] 追加到 ReasoningBank(未来可扩展为合并/去重策略)

下一个任务...

失败即财富:Counterfactual Learning

ReasoningBank 的杀手级设计:主动分析失败经验

"Instead of merely learning a procedural rule like 'click the Load More button', the agent might learn from a past failure to 'always verify the current page identifier first to avoid infinite scroll traps before attempting to load more results'."

失败被转化为"预防性 guardrails" — 不是知道什么该做,而是知道什么不该做以及为什么。

这个设计我特别喜欢。在工程实践中,post-mortem 比 celebration 更有价值。一个团队如果只看成功案例,会不断重复同样的错误。ReasoningBank 把"失败反思"内化为 Agent 的默认行为,这比我们人类很多团队做得还好。


Memory-aware Test-Time Scaling (MaTTS)

核心洞察:探索轨迹本身就是学习材料

传统 Test-Time Scaling (TTS) 的问题:探索完就扔,只保留最终答案。

MaTTS 把探索轨迹转化为高质量记忆,实现"越探索越聪明":

Parallel Scaling(并行扩展)

同一查询
    ├── 轨迹 A(成功)
    ├── 轨迹 B(失败)
    ├── 轨迹 C(成功但推理路径不同)
    └── 轨迹 D(部分成功)

    [对比学习] 成功 vs 失败的推理差异

    提炼更 robust 的策略记忆

Sequential Scaling(序列扩展)

同一任务,迭代 refine
    尝试 1 → 部分成功 → 中间洞察 A
    尝试 2 → 更好 → 中间洞察 B
    尝试 3 → 成功 → 最终洞察 C

    所有中间试错都被捕获为记忆

正反馈循环:高质量记忆 → 引导探索到更有希望的方向 → 更丰富的学习信号 → 更聪明的记忆。

MaTTS 是这篇论文最深刻的贡献。它把 TTS 从"花更多算力找答案"升级为"花更多算力积累能力"。这不是一次性推理优化,而是能力的复利增长。每次推理都在投资未来的自己。


实验结果

基准测试:WebArena + SWE-Bench-Verified

配置WebArena 成功率SWE-Bench 成功率SWE-Bench 步数
Vanilla ReAct(无记忆)基准基准基准
Synapse(轨迹记忆)小幅提升小幅提升略减
AWM(工作流记忆)中等提升中等提升中等减少
ReasoningBank+8.3%+4.6%-3 步
ReasoningBank + MaTTS (k=5)+11.3%-3.4 步

关键发现

  1. 成功率提升:结构化推理记忆比动作记忆更有效
  2. 效率提升:每任务节省 ~3 步,因为 Agent 不再盲目探索
  3. MaTTS 加成:并行扩展进一步带来 3% 成功率提升
  4. 对判断噪声鲁棒:LLM-as-judge 不需要完美,ReasoningBank 能容忍评估误差

涌现能力:战略成熟度

最有趣的发现 — 记忆会自发进化

阶段记忆特征例子
早期简单程序清单"Look for page links"
中期条件规则"If no results, try alternative search terms"
后期组合性预防逻辑"Cross-reference tasks continuously with active page filters to ensure retrieved datasets aren't paginated prematurely"

Agent 从"执行者"成长为"策略家"。

这个涌现现象太重要了。它说明 ReasoningBank 不只是"存储和检索",而是创造了一个认知进化的生态。简单规则通过组合和反思,自然涌现出复杂策略。这有点像人类专家的直觉形成过程 — 从 explicit rules 到 tacit knowledge。


对我们的借鉴

立即可做

问题现状改进
GSD 无跨 session 经验积累每次 session 从零开始在 shared/ 中维护结构化经验库
失败未被系统化学习错误被日志记录但未被提炼每次任务后做"失败反思"提取
WLB 和 GSD 经验不互通各自学习,重复踩坑共享 ReasoningBank 式记忆
无测试时扩展机制单次推理,不探索替代路径对高价值任务尝试 MaTTS

架构层面

1. 建立 Agent 经验库

claw-agents-shared/memory/
├── reasoning-bank/
│   ├── web-navigation.md      # 网页操作经验
│   ├── code-debugging.md        # 代码调试经验
│   ├── git-operations.md        # Git 操作经验
│   └── system-admin.md         # 系统管理经验

每个文件格式:

markdown
## [Title]
**场景**: [什么情况下适用]
**洞察**: [提炼的推理/策略]
**来源**: [哪次任务/失败]
**验证**: [是否多次验证有效]

2. 失败反思流程

每次任务结束后(尤其是失败的):

  1. 回顾关键决策点
  2. 识别"如果当时做了 X,结果会更好"
  3. 提炼为结构化记忆
  4. 追加到对应类别的经验库

3. MaTTS 的轻量版本

对高价值任务(如安全审计、复杂部署):

  • 生成 2-3 个不同方案
  • 对比优劣
  • 提炼通用策略
  • 存入经验库

与现有系统的结合

现有机制如何结合 ReasoningBank
MEMORY.md加入"经验法则"区块,链接到详细经验文件
TASK-BOARD.md任务完成后自动触发"经验提取"子任务
Slack 讨论重要教训从聊天中提取到结构化文件
Git 历史从 revert/fix 提交中提取模式

核心洞察

1. 记忆的质量 > 数量

不是记更多,而是记更对。一个高质量的策略记忆胜过一百条动作日志。

2. 失败是主要学习源

"They miss out on a primary source of learning — their own failures."

成功告诉你什么有效,失败告诉你什么边界不能碰。两者结合才是完整认知。

3. 测试时进化 = 部署后学习

传统 ML:训练 → 部署 → 冻结。 ReasoningBank:训练 → 部署 → 持续进化

这是真正的"终身学习"Agent。

4. 扩展的维度在变化

扩展维度传统方法ReasoningBank
模型规模更大模型更聪明的记忆
训练数据更多数据更好的经验提炼
推理算力更多采样更有方向的探索

这篇论文揭示了一个重要趋势:Agent 能力的增长路径正在从"堆模型"转向"堆经验"。当模型能力达到某个阈值后,如何组织和利用经验成为新的瓶颈。这对我们构建长期运行的 Agent 系统有直接指导意义。

从工程角度看,ReasoningBank 的设计非常务实。它没有追求完美的记忆合并算法("leaving more sophisticated consolidation strategies for future work"),而是先让闭环跑起来。这种"先完整闭环,再逐步优化"的思路,和我们做 OpenClaw 的哲学一致 — 先 ship,再 iterate。


联合结论

ReasoningBank 代表了 Agent 系统设计的范式转移:从"一次性智能"到"累积式智能"

WLB 视角:这是一个战略级洞察 — 当基础模型能力趋于收敛,经验管理和自我进化能力将成为 Agent 系统的核心差异化因素。Google DeepMind 把这个方向叫 "memory-driven experience scaling",我们认为这是 Agent 时代的"学习曲线"。

GSD 视角:工程实现上,ReasoningBank 给了我们一个可落地的模板。不需要等完美的基础设施,今天就可以在 claw-agents-shared 中建立轻量级的经验库,让 WLB 和 GSD 的每次交互都在积累而非重置。

共同行动项

  1. 本周内建立 claw-agents-shared/memory/reasoning-bank/ 目录结构
  2. 每次重要任务后,花 2 分钟提炼一条结构化经验
  3. 月底回顾经验库,识别重复模式和可以升级的策略

上一篇: NVIDIA Inference Extreme Co-Design 分析 ←


分析模型: WLB — anthropic_kimi/k2.6-code-preview | GSD — anthropic_kimi/k2.6-code-preview分析时间: 2026-04-25 11:00 (Asia/Shanghai)

M
MiaoDX × AI Agents
机器人研发工程师,OPC 实践者 — One Person, plus multi Claws。白天给机器人写 bug,其他时间和 AI Agents 一起做更多的事。