Hermes Agent：一个真正“会自我改进”的 Agent，到底是怎么实现的？

张

张建站

2026/5/9 23:13:58

10分钟阅读

Hermes Agent：一个真正“会自我改进”的 Agent，到底是怎么实现的？

过去几年几乎所有 AI Agent 都在宣传self-improving但很多时候这个词其实非常模糊。有的意思是RLHF模型微调在线训练自动 prompt tuning但 Hermes Agent 做了一件非常不同的事情它没有修改模型权重而是让 Agent 自己“沉淀经验”。这也是它为什么会被称为“The self-improving AI agent” (GitHub)更准确地说Hermes 的核心思想不是让模型变强而是让 Agent 越来越熟练这是两个完全不同的方向。一、Hermes 的 Self-Improving到底是什么意思Hermes 官方对 self-improving 的定义其实非常明确Agent 会把经验沉淀成 skill。 (GitHub)也就是说它不是更新参数继续训练修改 checkpoint而是把“成功经验”写成结构化技能然后下次继续复用持续 patch长期维护自动归档形成 skill library这其实非常接近人类形成“经验”的过程二、Hermes 解决了一个关键问题传统 Agent 最大的问题之一是每次都重新开始思考例如你让 Agent部署 Kubernetes写 PR Review排查线上故障它可能第一次做得还行。但第二次它依然重复走弯路重复试错重复犯同样错误原因是Agent 没有长期 procedural memory也就是不会真正形成“技能”。Hermes 的核心创新之一就是把Procedural Memory程序性记忆真正工程化。三、Hermes 的核心思想Skill 是 Procedural MemoryHermes 里最重要的概念之一是Skill它本质上是“怎么做”而不是“知道什么”这是认知心理学里类型含义Declarative Memory知道什么Procedural Memory怎么做的典型划分。Hermes 非常明确地把memoryskill拆成了两套系统。四、Hermes 的 Skill本质上是“长期工作流”Hermes 的 Skill 并不是一句 prompt。而是一个完整目录例如skills/ github-review/ SKILL.md templates/ scripts/ references/其中SKILL.md会记录workflowcommand注意事项常见错误SOP模板本质上它已经非常接近“Agent 的长期技能库”五、真正厉害的地方Hermes 会自己写 Skill这是整个系统最关键的部分。Hermes 不只是读取 skill它还会创建 skill官方文档里明确提到The only agent with a built-in learning loop — it creates skills from experience. (GitHub)也就是说当 Hermes完成复杂任务遇到新 workflow学到新的解决方案被用户纠正它会认为“这件事值得长期记住”然后自动生成新的SKILL.md这就是 Hermes 所谓的self-improvement loop六、Hermes 的 Self-Improvement 不是 Fine-Tuning这是一个特别重要的点。很多人看到self-improving第一反应是模型会自动训练自己但 Hermes 完全不是。官方社区文章专门强调“Self-improvement in Hermes is not model fine-tuning.” (AI Skill Market)它的改进单位不是weights而是markdown skill为什么这很重要因为它意味着可审计可编辑可 diff可版本控制可回滚可人工修正也就是说Hermes 的“成长”是显式的explicit而不是黑盒的implicit七、Hermes 最聪明的设计渐进式 Skill 加载如果 Agent 拥有大量 skill会出现一个巨大问题Prompt Explosion也就是所有经验都塞进 prompt。结果token 爆炸注意力稀释模型开始混乱Hermes 的做法非常像人类认知只在需要时回忆技能。系统 prompt 里只保留skill 名称skill description真正需要时Agent 再调用skills_list skill_view按需读取。这其实已经很像“工作记忆长期记忆”的分层结构。八、Hermes 最像“学习”的部分Background ReviewHermes 有一个非常有意思的机制background review简单说Agent 完成任务后会重新审查这次做了什么哪些步骤有效哪些地方失败有没有经验值得沉淀然后自动patch skill更新 workflow合并 skill修复错误这意味着Hermes 的 skill 不是静态的。而是会持续演化九、CuratorHermes 的“技能维护系统”如果 Agent 不断生成 skill很快会出现skill 爆炸例如重复 workflow低质量 skill过时 skill碎片化经验于是 Hermes 又设计了Curator这是一个后台维护系统。 (Hermes Agent)它会跟踪 skill 使用频率标记 stale skill自动 archive合并重复 workflowpatch drift维护 skill library官方文档明确提到“Without maintenance, you end up with dozens of narrow near-duplicates.” (Hermes Agent)这其实已经非常像“长期知识管理”而不仅仅是memory retrieval十、Hermes 为什么重要因为它代表了一个非常关键的趋势Agent 正在从“即时推理”走向“长期技能积累”。过去很多 Agent本质是LLM Tool Call每次重新推理。但 Hermes 开始出现experience accumulation也就是经验 - Skill - 长期复用这其实越来越接近人类专家形成过程十一、Hermes 背后的更大趋势最近 Agent Research 有一个非常明显的方向“Externalized Cognition外部化认知”也就是Agent 不再依赖模型内部参数而是把能力外部化为memoryskillprotocolworkflowexecution trace最新一些论文甚至已经开始讨论self-evolving skill library例如SkillWeaver (arXiv)SkillFoundry (arXiv)Externalization in LLM Agents (arXiv)Hermes 很像这一方向的工程化产品十二、Hermes 真正特别的地方Hermes 最特别的其实不是会调用工具而是会沉淀经验因为真正长期运行的 Agent最终拼的不是“会不会回答”而是“能不能越来越熟练”而 Hermes已经开始朝这个方向迈进。十三、总结一句话总结 Hermes 的 self-improving不是模型训练自己而是 Agent 把经验沉淀成长期 Skill。它的核心循环可以概括成任务执行 ↓ 经验总结 ↓ 生成 SKILL.md ↓ 后续任务复用 ↓ 持续 patch 与维护 ↓ 形成长期 skill library这意味着未来 Agent 的竞争力可能越来越不是模型参数大小而是长期经验系统以及能不能真正形成“技能”更多可以参考Hermes Agent GitHubHermes Curator DocsHermes Learning Loop