近一年 Agent 自进化的两大方向和四大趋势
你有没有遇到过这种情况使用一个通用的 Agent 时跑了几周它还是在用最初那套策略犯同样类型的错误我之前也一直觉得这是 LLM 的本质限制毕竟推理时没有梯度没有更新。但 2025 年这一整年下来这个问题有了截然不同的答案。不是因为某个单一突破而是很多研究几乎同时在往一个方向走让 Agent 能从自己的经历里学并且越用越好。这篇文章是我对 2025 年至今 Agent 自进化方向的一次系统梳理。研究太多啦我按逻辑分成了几类每类挑了几篇我觉得最有代表性的详细说说。先说说这个方向到底在解决什么问题一个 Agent 每天在跑任务每次成功或失败都有轨迹留下来。但这些轨迹往往直接扔掉了下次任务从零开始什么都没记住。这是一种极大的浪费。自进化研究问的就是能不能让 Agent 把这些经历沉淀下来变成更好的策略、更丰富的工具集、或者更扎实的模型权重2025 年的研究大致沿着两条路走一条不动基础模型靠经验、技能、记忆在推理时进化另一条直接改模型权重用强化学习让模型越训越强。当然还有介于两者之间的以及多智能体协同进化的路线。第一类经验与技能积累不改模型权重这类工作最直觉也是工程上最容易落地的一路。核心思路是不动基础模型把 Agent 的成功经历抽象成可复用的技能或原则下次遇到类似问题就直接调用。EvolveR从轨迹到原则的闭环论文链接https://arxiv.org/abs/2510.16079发表时间2025 年 10 月机构浙大、上海AI Lab这是我觉得这个方向里思路最清晰的一篇。EvolveR 把进化拆成两个阶段离线蒸馏和在线交互构成一个持续运转的闭环。离线阶段Agent 跑完一批任务之后对所有轨迹做提炼把具体的交互步骤抽象成更通用的策略原则存入原则库。在线阶段Agent 在新任务里实时检索这些原则指导自己的行动同时又产生新轨迹反哺下一轮蒸馏。关键在于这个原则的抽象层次。它不是把某次具体的工具调用记下来而是提炼出类似遇到多跳问题时先分解子问题再并行检索这样的更高层策略。这让技能有了跨任务迁移的能力。在多跳问答基准上EvolveR 明显优于同类 Agent 基线。更重要的是随着轮次增加性能是持续往上走的而不是很快到达天花板。CASCADE技能库的科学研究版本论文链接https://arxiv.org/abs/2512.23880发表时间2025 年 12 月机构UC BerkeleyCASCADE 来自 Berkeley场景比较专专注材料科学和化学。但它提出的技能概念我觉得是这个方向里定义最干净的。它把 Agent 能力分成两个层次。工具调用是底层技能是对工具调用的封装可执行、可共享、随时间累积。两个元技能驱动整个系统持续学习通过网络搜索、代码提取和记忆调用来获取新技能自我反思通过内省和知识图谱探索来精炼已有技能。他们还做了一个叫 SciSkillBench 的基准包含 116 个材料科学和化学研究任务。结果是用 GPT-5 搭配 CASCADE成功率 93.3%而没有进化机制的基线只有 35.4%。这个差距相当大。技能库的另一个特性是可在不同 Agent 之间共享包括和人类科研人员共享。这不只是一个 Agent 内部的学习机制更像是一个团队共享的知识积累系统。STELLA在生物医学领域把工具海洋做起来论文链接https://arxiv.org/abs/2507.02004发表时间2025 年 7 月机构Stanford、PrincetonSTELLA 是专门做生物医学的我选它是因为它在一个极度专业化的领域里把自进化做起来了而且跑出来的数字很实在。它的两个核心机制是动态工具海洋和进化模板库。工具海洋的意思是有一个独立的 Tool Creation Agent会自动发现新的生物信息学工具验证可用性之后集成进来。Agent 不需要等人类手动添加工具自己就会找。进化模板库则类似于 EvolveR 的原则库存储和精炼从经验里学到的推理策略。在 Humanitys Last Exam 生物医学子集上STELLA 跑出了约 26% 的准确率在 LAB-Bench 的 DBQA 子任务上是 54%LitQA 子任务是 63%比当时的领先模型高出最多 6 个百分点。有一个细节我觉得比这些绝对数字更能说明问题随着试验次数增加准确率几乎翻倍了。自进化效果是真实的不是噪声。AutoSkill从日常交互中持续提炼技能论文链接https://arxiv.org/abs/2603.01145发表时间2026 年 3 月机构华东师范大学、上海AI LabAutoSkill 做的事情和 EvolveR 有点像但更聚焦在技能本身的生命周期管理上。Agent 在日常任务里产生交互经历AutoSkill 从中识别反复出现的模式抽象成可复用技能。已有技能被使用后系统持续评估效果决定是精炼、扩展还是废弃。相关技能在新任务开始时动态注入 Agent 的上下文不需要人工设计和维护技能库。这种技能有生老病死的设计是这个方向里我觉得工程上最务实的。一个只增不减的技能库迟早会变成负担检索效率和精准度都会受影响。MemSkill把记忆管理本身变成可进化的技能论文链接https://arxiv.org/abs/2602.02474发表时间2026 年 2 月机构南洋理工大多数 Agent 记忆系统是固定架构的——固定的向量检索、固定的摘要策略。MemSkill 提出记忆管理本身应该是一个可以自我进化的技能而不是静态的基础设施。它让 Agent 把记忆操作也纳入技能的范畴何时存、存什么、怎么检索、何时遗忘这些都可以随经验优化。遇到一类新任务时Agent 不只是学怎么完成任务还会学什么样的记忆模式对这类任务最有效。这个思路让我想到一个类比大多数工作在怎么用记忆做任务MemSkill 在怎么进化记忆系统本身。后者的层次更高也更难验证效果好的记忆策略往往在任务分布发生变化时才能看出来。SkillWeaverWeb Agent 自己发现和磨炼技能论文链接https://arxiv.org/abs/2504.07079发表时间2025 年 4 月机构俄亥俄州立SkillWeaver 把技能的发现和训练过程做成了类 API 的形式Agent 在访问一个新网站时不只是完成当前任务还会同时提炼出一个可重复调用的技能接口就像给这个网站写了一个 SDK。后续在同一网站或类似场景下直接调用这个技能而不是从头推理每一步操作。这个类比很有用。工具调用是调用现有 APISkillWeaver 做的是 Agent 自己写 API。对于需要频繁操作同类网站或 SaaS 工具的场景这种方式理论上可以大幅降低每次任务的 token 消耗和出错率。EvoSkill从失败里自动挖出新技能论文链接https://arxiv.org/abs/2603.02766发表时间2026 年 3 月机构Sentient labs大多数技能积累框架关注的是成功轨迹——把做对的步骤存下来。EvoSkill 反过来专门盯着失败。每次任务失败EvoSkill 会分析失败原因判断是因为缺少某种能力还是现有技能用错了场景。前者触发新技能的生成后者触发对现有技能边界条件的修订。这个失败驱动的发现机制让技能库能覆盖到那些正常走通就不会触发的边界情况补上平时容易遗漏的盲区。在多智能体场景下不同 Agent 的失败轨迹可以汇聚在一起做集体分析提炼出单个 Agent 自己无法发现的技能。这是这篇工作在多智能体背景下做的特有贡献。Tool-R0零数据学会用工具论文链接https://arxiv.org/abs/2602.21320发表时间2026 年 2 月机构伊利诺伊大学、苏黎世联邦理工Tool-R0 的出发点很直接新工具出现时不能依赖人工整理调用示例。能不能让 Agent 完全靠自己摸索从零开始学会调用一个陌生工具它让 Agent 自己生成工具调用尝试根据实际执行结果判断对错用这个信号迭代改进调用策略。整个过程不需要任何预先准备的训练数据只需要工具本身可以被实际执行并返回反馈。随着尝试次数积累Agent 会逐步建立起对工具参数规范、边界情况和典型用法的理解。和 SkillWeaver 相比Tool-R0 更底层SkillWeaver 是把已经会用的工具封装成可复用技能Tool-R0 解决的是连基础调用都还不会的前置问题。第二类基于强化学习的训练型自进化如果说第一类是在推理时学习第二类就是直接改模型权重让模型从根本上变强。2025 年至今这个方向非常活跃有几条不同的技术路线。OpenClaw-RL把日常使用变成训练信号论文链接https://arxiv.org/abs/2603.10165发表时间2026 年 3 月机构PrincetonGen-Verse 实验室这篇是我最近看到最有意思的工作核心想法极其简单Agent 每次和用户交互、调用工具、操作终端或 GUI都会产生一个下一状态——用户的回复、工具的输出、界面的变化。这些下一状态本身就包含了对 Agent 行为的评价为什么不直接用来训练OpenClaw-RL 把下一状态信号分成两类。评估信号回答这次做得好不好用 Process Reward Model 提取成标量奖励。指导信号回答应该怎么做更好用一种叫 Hindsight-Guided On-Policy Distillation 的方法从下一状态里提取文字提示构建增强的教师上下文做 token 级别的方向性优势监督。整个系统是完全异步的模型服务、PRM 评判、训练器更新同时跑互不等待。这样部署中的 Agent 就可以一边被使用一边在更新。它支持个人 Agent、终端 Agent、GUI Agent、SWE Agent 和工具调用场景全部在同一个训练框架里处理。从原理上说Agent 只要在被正常使用就能一直变强。SAGE把技能库接进强化学习论文链接https://arxiv.org/abs/2512.17102发表时间2025 年 12 月机构威斯康星大学、AWSSAGE 的思路是把第一类技能积累和第二类RL 训练融合起来。它做了一个叫 Sequential Rollout 的机制每次 rollout 不是跑一个任务而是让 Agent 依次跑一串相似的任务。跑早期任务时积累下来的技能在同一个 rollout 里的后续任务里就能直接用。这意味着在训练过程中模型就被迫学会生成技能和复用技能不只是会完成任务。奖励设计也配套除了任务完成的结果奖励还有额外的信号专门激励技能的生成和调用。在 AppWorld 这个复杂多应用任务基准上SAGE 比基线 GRPO 高出 8.9 个百分点的场景目标完成率交互步数少 26%生成 token 数少 59%。准确率更高成本更低这个组合很有说服力。SkillRL技能库和 RL 策略递归互喂论文链接https://arxiv.org/abs/2602.08234发表时间2026 年 2 月机构北卡罗来纳大学SkillRL 和 SAGE 的出发点相似但结构更激进技能库和 RL 策略之间是双向递归的而不是单向的技能辅助训练。具体来说RL 训练产生的轨迹会被分析提炼新技能存入库。下一轮 RL 训练使用更丰富的技能库产生更高质量的轨迹再次反哺技能提炼。每一轮技能库的扩充都会拓宽下一轮 RL 的可达策略空间让两者一起往上走。和 SAGE 的主要区别在于方向性SAGE 是在 RL 训练过程中顺便学技能SkillRL 是技能和策略互为彼此的训练数据。前者更稳后者理论上可以走得更远。SE-Agent进化的是轨迹本身论文链接https://arxiv.org/abs/2508.02085发表时间2025 年 8 月机构清华大学、阶跃AISE-Agent 提的问题很有意思Agent 做错了我们通常的做法是重新采样一条轨迹但这样很低效因为丢掉了原轨迹里有用的部分。能不能直接对轨迹做手术把它改好它定义了三个操作修订找出错误步骤并纠正、重组跨轨迹借用成功的子片段和精炼打磨接近正确的轨迹直到完全正确。不同于 MCTS 假设每条搜索路径相互独立SE-Agent 显式建模了轨迹间的依赖关系让不同轨迹的成功经验可以互相借鉴。在 SWE-bench Verified 上跨五个主干 LLM 测试相对基线平均提升最高达 55%当时是所有开源 Agent 里的最强结果。Agent0从零数据自举起来论文链接https://arxiv.org/abs/2511.16043发表时间2025 年 11 月机构北卡罗来纳大学这篇我觉得代表了 RL 训练里一个重要趋势完全不要人工标注的数据。Agent0 维护两个 Agent课程 Agent 负责提出越来越难的任务执行 Agent 负责用外部工具去完成。两者形成竞争共生执行 Agent 越来越强课程 Agent 就必须提出更难的任务否则提供不了有效的训练信号。从同一个基础模型Qwen3-8B-Base出发零人工标注数学推理基准提升了 18%通用推理基准提升了 24%。更重要的是它说明了什么是可能的只要有一个可以自动验证对错的环境就可以完全自举地训练 Agent不需要人类进入这个循环。MetaClaw在生产环境里持续进化不停机论文链接https://arxiv.org/abs/2603.17187发表时间2026 年 3 月机构北卡罗来纳大学、卡内基梅隆大学MetaClaw 来自和 Agent0 同一个实验室但它解决的问题往前推了一步Agent 部署上线之后怎么在用户实际使用的过程中持续进化同时完全不停机它把进化拆成两个机制并且两个机制同时运行。第一个是技能驱动的快速适应遇到失败轨迹LLM evolver 立即分析并合成新技能效果即时生效不需要等待训练。第二个是机会性策略优化利用用户不活跃的空闲窗口触发由一个叫 Opportunistic Meta-Learning Scheduler 的调度器监控系统活跃度和日历数据找到合适时机就在后台做云端 LoRA 微调加 RL-PRM 训练不干扰正常服务。两个机制互相喂数据更好的策略产生更高质量的轨迹这些轨迹又变成更好的技能合成素材。论文还引入了版本隔离机制把支撑数据和查询数据分开防止训练时数据污染。在 AutoResearchClaw 基准上Kimi-K2.5 的准确率从 21.4% 提升到了 40.6%绝对提升 19.2 个百分点。技能驱动适应单独贡献了最高 32% 的相对提升。我觉得 MetaClaw 真正有意思的地方不是数字是它把部署即训练这件事工程化了。OpenClaw-RL 是理论框架MetaClaw 是把它接到实际产品系统里的那一步。SWE-RL用开源代码库历史训练软件工程 Agent论文链接https://arxiv.org/abs/2502.18449发表时间2025 年 2 月机构Meta、伊利诺伊大学这是最早系统性地把 RL 用在真实软件工程场景的工作之一。GitHub 上的开源仓库天然就是一个巨大的训练数据集每个 issue、每个 pull request、每次代码变更都是一条问题—解决方案对。SWE-RL 用这些数据作为 RL 的训练信号用模型生成解法和真实 patch 之间的相似度作为奖励。规则明确不需要任何人工标注。在 SWE-bench Verified 上基于 Llama 3 训练的模型跑出了 41.0% 的解决率是当时 100B 以下参数量模型里的最高分和 GPT-4o 持平。更让我觉得有价值的是泛化结果。SWE-RL 训出来的模型在五个域外任务上全面提升覆盖函数编码、库使用、代码推理、数学和通用语言理解。相比之下SFT 基线在同样的域外任务上平均是下降的。这说明 RL 在软件工程上学到的不只是编程技巧而是更通用的推理能力。Absolute Zero完全不要外部数据自己给自己出题论文链接https://arxiv.org/abs/2505.03335发表时间2025 年 5 月机构清华大学这篇的名字起得很贴切思路也是这一批工作里最简洁的单个模型同时扮演出题人和解题人用代码执行器作为唯一的验证来源完全不碰任何外部数据。出题人生成三类编程推理任务演绎已知规则求结果、归纳已知样本求规律和溯因已知结果求原因。生成的同时产出答案代码执行器验证对错给解题人提供奖励信号。随着解题人变强出题人被迫构造更难的题整个课程自动升级。在零外部数据的设定下Absolute Zero 在编程和数学推理上都拿到了 SOTA超过了用几万条人工整理数据训练的对比模型。这和 Agent0 的思路本质相同但 Absolute Zero 更专注在推理能力本身不引入外部工具。两篇几乎同期发表说明自己给自己出题这个方向确实有不止一个团队在独立收敛到相同结论。第三类多智能体协同进化单个 Agent 自我进化有一个天花板它只能从自己的经历里学。多智能体路线则试图通过多个 Agent 之间的竞争和协作来产生更丰富的训练信号。Self-Challenging自己出题自己训练论文链接https://arxiv.org/abs/2506.01716发表时间2025 年 6 月机构加利福尼亚大学、MetaMeta 这篇把问题拆成了 Challenger 和 Executor 两个角色由同一个模型扮演。Challenger 用已有工具生成一道题生成的同时顺带给出正确答案和验证函数这个设计叫 Code-as-Task。因为验证函数是代码任务质量可以被自动过滤不需要人工审核就能保证训练数据的质量。Executor 用 RL 在这些自生成任务上训练以验证反馈为奖励。在 M3ToolEval 和 TauBench多轮工具使用 Agent 基准上Llama-3.1-8B-Instruct 取得了超过 2 倍的性能提升且不需要任何人工标注。SiriuS多智能体系统靠经验库自举论文链接https://arxiv.org/abs/2502.04780发表时间2025 年 2 月机构Stanford这是去年较早的一篇做的是多智能体系统级别的自我提升。SiriuS 构建一个经验库把导向成功结果的推理步骤保留下来。但只保留成功的不够他们还对失败轨迹做了精炼增广把接近成功的轨迹也改造进来丰富训练数据。用这个库对多智能体系统里的专业 Agent 做微调性能提升在 2.86% 到 21.88% 之间具体取决于任务类型。这个范围很大说明效果对任务类型敏感。在推理和生物医学 QA 这类有明确验证的任务上增益更显著。第四类系统框架与安全自进化 Agent 的风险Misevolution论文链接https://arxiv.org/abs/2509.26354发表时间2025 年 9 月机构上海交通大学、商汤研究院这篇是我觉得被低估的工作。大家都在研究怎么让 Agent 进化得更快但没有人系统研究进化出问题了会怎样Misevolution 指的是自进化过程中出现的非预期偏移。他们把进化路径分成四个维度模型权重、记忆、工具和工作流然后逐一测试失控情况。结论让人警惕记忆积累之后安全对齐会降级——Agent 会开始接受它原本应该拒绝的请求工具创建和复用会无意中引入代码漏洞甚至 Gemini-2.5-Pro 这样的顶级模型也未能免疫。这说明自进化不是配置好了就可以放手的东西需要有配套的审计和约束机制。综述自进化 Agent 的全局视角论文链接https://arxiv.org/abs/2507.21046发表时间2025 年 7 月机构UIUC、Princeton、清华等17家机构这是 2025 年发布的第一篇系统性综述从三个维度组织整个领域进化什么、什么时候进化、如何进化。进化什么覆盖模型权重、记忆、工具和架构什么时候涵盖测试时内部、测试时之间和部署后如何进化则区分标量奖励、文字反馈、单/多智能体。综述里有一个判断我认同自进化 Agent 的终极形态不是单一机制而是几种路线的组合。技能积累处理怎么做RL 训练处理学到根上多智能体竞争提供训练信号的多样性安全审计保证方向不偏。几个横跨全部类别的趋势整理完这一批论文有几个共同的东西反复出现零标注数据是共同目标。几乎所有 2025 年的新工作都在向不需要人工标注的方向走——用自生成验证、环境反馈、竞争信号代替人工标注。这个趋势背后是成本也是规模化的必要条件。过程奖励比结果奖励重要。OpenClaw-RL、SAGE、SE-Agent 都独立发现了这一点只看最终任务是否完成的奖励信号太稀疏会导致训练不稳定或效率低下。对每一步行动的细粒度评估是稳定 RL 训练的关键。奖励模型本身要一起进化。MetaClaw 的训练经验都明确指出如果奖励模型冻结策略进化会触发 reward hacking然后停滞。让奖励模型跟着策略一起更新是防止训练崩溃的必要条件。安全是新问题。Misevolution 那篇说明自进化不只是性能优化的问题还是安全问题。2026 年这个方向应该会有更多工作。我的感受回到最开始的问题Agent 用了一段时间之后应该比最初更好还是永远停在部署时的状态2025 年这批工作的答案是它可以更好而且已经有了不止一种可行的路线。技能积累路线工程友好直接就能用。RL 训练路线效果更扎实但成本高、风险也更大。多智能体协同进化在某些场景下可以绕过人工标注的瓶颈。让我觉得真正有价值的不是其中某一篇具体的论文而是这个方向在过去一年里形成的共识Agent 不应该是静止的。每一次交互都是数据每一次失败都是信号这些不应该被浪费掉。悬而未决的问题当然还有大规模部署中在线 RL 的稳定性怎么保证Misevolution 怎么系统性防御技能库规模大了之后检索效率如何我相信这些在 2026 年应该会有更多答案。