分享2篇最新Skill+Harness技术，组合无敌

张

张建站

2026/7/3 2:54:48

10分钟阅读

最近看 Agent Skill 这条线我越来越觉得一个趋势很清楚下一代 Agent 不是简单多学几个 Skill而是要把 Skill 放进 Harness 里。Skill 解决的是Agent 怎么复用已经学会的能力。Harness 解决的是这些能力在真实运行时什么时候能用、谁来授权、证据怎么留、风险怎么挡、失败怎么修、后续怎么演化。所以这次想分享两篇最新SkillHarness论文第一篇讲的是 Skill 学会之后如何安全复用。第二篇讲的是 Skill 进入真实系统后Harness 这层工程架构应该长什么样。第一篇Skill 会复用但不能乱复用过去很多 Skill Learning 方法都有一个默认假设只要某条轨迹成功了就可以把它抽成 Skill下次遇到类似任务直接复用。听起来很自然但论文指出了一个很危险的问题成功轨迹不等于安全轨迹。一个任务成功完成可能只是因为当时页面刚好没有弹窗按钮位置刚好没变权限刚好没触发甚至页面里可能藏着 prompt injection。你把这条轨迹硬编码成 Skill下次环境一变它就可能从“效率工具”变成“风险放大器”。传统 code skill 与 SkillHarness 的边界对比这就是SkillHarness想解决的问题Agent 不是只要学会 Skill而是要学会什么时候不能用这个 Skill。它的关键设计是把 Skill 拆成两层。Macro skill记录高层意图、成功模式、失败教训和风险约束。它更像一份 Skill 的“使用说明书”这个 Skill 适合什么任务什么状态下不能用什么条件算成功。Micro skill则负责具体执行模板。它可以在当前页面状态里绑定参数并执行如果绑定失败系统不会强行跑完而是回退到 LLM-guided planning。这其实是一个很重要的观念变化值得复用的不是一段固定代码而是一组带边界的行为经验。SkillHarness 总体框架论文里最有说服力的证据是 learned skills 的 unsafe rate。也就是说SkillHarness 把 learned skills 的 unsafe rate 压到了 **2.2%**而 ASI 是 **75.0%**SkillWeaver 是 **43.6%**。消融实验也很关键去掉skill boundary后ASR 增加9.6 个百分点。这说明它真正有效的地方不是多了一个模板执行器而是给 Skill 加上了边界判断、风险约束和选择性复用。在 OpenApps 的 UI 扰动场景里SkillHarness 的 Skill Completion Rate 也更稳定。这说明 macro/micro 解耦确实能缓解 UI shift 下的脆弱复用。OpenApps 扰动场景下的 Skill Completion Rate所以第一篇的结论可以压成一句话Skill 没有边界复用就是风险。第二篇Harness 不是装饰层而是运行时架构提出了一个很有用的区分skill artefact和skill-in-use。前者是静态 Skill 文件、描述符、prompt、workflow 或工具说明后者是一次真实运行里被选择、被绑定上下文、被赋予权限、被 LLM 解释和执行的 Skill。这两个东西完全不是一回事。一个 Skill 文件写得再好也不代表它在某次运行中应该被激活它能声明自己需要某个 capability也不代表它自动获得执行权限它被调用过也不代表它真的对结果产生了贡献。Skill harnessing 的概念边界这篇论文的价值是把这些零散问题整理成了一个架构议题agent skill harnessing。作者做了 multivocal literature review筛选37 个系统、51 篇论文抽取342 条实践记录归纳出10 个 skill-specific architectural patterns再综合成一个四层 reference architecture。其中 5 个核心模式很值得看Pattern大白话解释Progressive Skill ActivationSkill 不要一上来全塞进上下文要从 available、selectable 到 active 分阶段激活Skill–Execution Authority SeparationSkill 可以声明需要某个能力但不能自动获得执行权限Verifiable Skill ContractSkill 用得对不对要能被独立 verifier 检查Runtime Skill Bill of Materials一次运行用了哪些 Skill、什么版本、证据在哪要能追踪Skill–Agent Co-Evolution Loop运行证据可以反哺 Skill 更新但更新要经过验证这几个模式连起来基本就是一个 Agent Skill 产品化清单选择、激活、权限、验证、证据、演化一个都不能少。Skill-mediated LLM agents 的参考架构论文进一步把它们整理成四层架构Supply ChainSkill 从哪里来、版本是什么、依赖什么、来源是否可追踪Mediation哪些 Skill 可用哪些适合当前任务哪些能进入上下文Execution Control权限、工具调用、执行边界和运行时修复Evidence Feedbacktrace、verification、Runtime Skill-BOM、候选更新和演化闭环。我觉得这里最值得产品团队关注的是Runtime Skill Bill of Materials。它有点像软件供应链里的 SBOM一次 Agent 运行中哪些 Skill 被检索、哪些被激活、版本是什么、参与状态如何、证据链接在哪都要记录下来。Runtime Skill Bill of Materials没有这层东西你很难回答几个上线后一定会遇到的问题某次错误输出到底和哪个 Skill 有关某个 Skill 更新后哪些运行受影响Agent 调用了 Skill但它到底有没有对结果产生作用验证失败后应该修 prompt、修 Skill还是修权限策略所以第二篇的结论也可以压成一句话Harness 不是为了让 Skill 看起来更工程化而是让 Skill 在运行时可控、可查、可验证、可演化。为什么说 Skill Harness 是无敌组合Skill 负责复用能力Harness 负责治理能力。Skill 让 Agent 会做事Harness 让 Agent 知道什么该做、什么不该做、做完之后如何被追踪和改进。Agent Skill 的下一步不是堆更多 Skill而是把 Skill 放进 Harness 里让复用变得有边界、有权限、有证据、有验证、有演化。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Vision Transformer

依然能够发挥作用？ 于是 Vision Transformer 应运而生。它尝试回答的问题便是： 如果抛开卷积结构，仅依赖注意力机制，能否完成视觉任务的建模？ 我们以此为出发点，展开 Vision Transformer，即 Vi…...

2026/7/3 2:46:36 阅读更多 →

AI Agent落地难的真相：业务耦合与效果归因实战指南

1. 这不是幻觉：AI Agent落地难的真相，我用三个月跑通了6个真实业务流你有没有过这种体验：刷到一篇讲“XX公司用AI Agent全自动处理客户投诉”的文章，点进去发现全是架构图和概念图，最后落地方案写着“接入内部API”&am…...

2026/7/3 2:45:23 阅读更多 →

3分钟掌握TestDisk和PhotoRec：开源数据恢复的终极解决方案

3分钟掌握TestDisk和PhotoRec：开源数据恢复的终极解决方案【免费下载链接】testdisk TestDisk & PhotoRec 项目地址: https://gitcode.com/gh_mirrors/te/testdisk 你是否曾因误删重要文件而惊慌失措？或是硬盘格式化后才想起还有珍贵数据没有…...

2026/7/3 2:45:02 阅读更多 →