4月14日(Skills+AI概率+Agent设计)
Agent Skills从入门到精通2026年最值得学习的AI技能是什么我会毫不犹豫地推荐Skills。Skills很可能是今年Agent领域最重要的创新之一。简单理解模型是大脑Agent是躯体而Skills就是双手。Skills就是我们专门给AI定制的“标准操作手册SOP每个Skill都有一个专门的文件夹核心文档 SKILL.md用来放执行指令、资源文件和参考资料等。但千万别小看这个文件夹它能让AI瞬间从“职场小白”变成“职场老司机”。Prompt就像顾客的点单“老板给我做一个牛肉汉堡不要洋葱”指令很明确但怎么做全看厨师心情。MCP就像厨房里的工具和食材它给了AI铲子、平底锅、牛肉饼和面包AI终于不用空手套白狼了。Skills是这家店的秘制菜谱员工守则“第一步肉饼必须煎 3分半钟第二步酱汁只能挤两圈半做完后必须清理灶台”Skills规定了动作的先后顺序、质量底线和执行标准。有了它AI就不再瞎猜你的心思而是按部就班地干活。拆解Skills的核心架构通常一份标准的Skill结构如下。以SKILL.md为第一指引了解该skill对大模型的要求。结合当前的任务情况判断是否需要调用scripts代码脚本、references参考文档和assets素材资源。最后通过“规划-执行-观察”的交错式反馈循环来完成用户制定的任务要求。1核心原则触发即正义Description的首要任务不是给人看的而是给AI的路由机制看的。它需要明确回答两个问题这个skill是做什么的(功能定义)用户在什么场景/说什么话时应该使用它(触发条件)2“黄金结构”公式一个高质量的description通常遵循这个结构[一句话核心功能] [具体执行动作] [明确的触发关键词/场景]。简单理解就是写好description的秘诀在于模拟用户的提问方式。想象一下你会怎么向AI提出请求然后就把这些请求中的关键词都塞进description里。Skills的三个“魔法机关”机关一智能开关YAML元数据每个Skill文件的开头就是用---包裹的那块都有一个小小的控制面板这是Skills的元数据会始终加载到Claude Code的系统提示中。这就好比技能的“开关”和“权限卡”。机关二随用随取的“小抄”渐进式披露过去的AI有个毛病记性不好。如果我们把公司的所有开发规范都塞给它它的“短期记忆上下文窗口”瞬间就被撑爆了导致它开始胡言乱语AI幻觉。Skills的设计非常聪明平时绝不占用脑容量只在需要时占用。你写好的几十个Skills就像存放在书架上的工具书。Claude Code平时不去翻它们只有当你触发了“测试代码”的技能时Claude Code才会翻出小抄只把关于“如何测试”的那张纸加载进大脑。内存省了思路也无比清晰。机关三呼叫外援与影分身行动导向与子代理Skills可不只是让AI读说明书它还能让AI“动起手来”。在Skill的指导下Claude Code可以像人类一样敲击命令行、搜索文件、运行测试。更有趣的是如果它碰到了一个极其复杂的巨无霸任务它可以召唤一个“子代理”Subagent——就像是它召唤了一个自己的“影分身”让分身专门去隔壁房间解决那个大难题搞定后再把结果汇报给自己。这里面渐进式披露Progressive Disclosure是Skills最牛的的设计哲学。它让Skills的所有信息不是一次性塞给Claude Code而是分三层加载根据需要逐步展示。层级内容加载时机Token配额作用第一层元数据name description始终在上下文中约100词决定skill何时触发第二层SKILL.md主体技能触发后5000词核心工作流程第三层配套资源scripts/references/assets按需加载无限详细参考和可执行代码这种设计有什么好处想象一下你有一个包含数百页技术文档的Skill。如果每次对话都把这些文档加载进去对话上下文Context很快就会被撑爆。但通过渐进式披露Claude Code只在需要时才加载相关文档——就像一本组织良好的指南书你只看需要的章节而不是从头读到尾。Skills与Prompt、MCP、Agent、Projects的区别在Claude Code中一个SKILL.md文件包含了超级精细的Prompt告诉AI目标是什么怎么做做到什么效果规定了AI可以且只能使用哪些工具、可执行代码给AI发放特定的武器指挥Agent按照1-2-3-4的严格顺序执行绝不偏离轨道。创建并部署一个skill通常包含四个阶段阶段一明确需求与边界在动手前先回答清楚这三个问题1这个skill要解决什么具体问题原则是“单一职责”每个skill只专注一个能力。例如“处理PDF”太宽泛而“从PDF中提取表格并转换为CSV”就是好的定义。2触发它的关键词/场景是什么这将决定description字段的写法而description是Agent判断是否调用该skill的唯一依据。不要写“帮助处理文档”而要写“当用户提到PDF、表单或文档提取时用于从PDF中提取文本和表格”。3需要哪些资源脚本、模板、参考文档还是示例数据把这些提前整理好放入skill文件夹的对应子目录如scripts/、references/、assets/。阶段二构建skill文件夹在确定了需求之后就可以创建skill的文件结构了。根据使用场景你可以选择三个存放位置。类型路径使用场景个人skill~/.claude/skills/个人工作流优化、实验性功能项目skill.claude/skills/团队协作、项目特定知识插件skill通过插件系统安装跨项目共享、公开发布核心文件SKILL.md的结构如下命名规范name字段仅使用小写字母、数字和连字符不超过64个字符。文件夹名称须与name一致。阶段三编写核心指令这是决定skill质量的关键步骤。Anthropic内部团队的经验表明最有价值的内容是“常见陷阱”章节——应持续累积Agent的失败模式让后来者可以直接绕坑。一个高质量的SKILL.md通常包含以下要素1明确的职责边界告诉Agent能做什么和绝对不能做什么。例如一个SQL分析skill应明确限定只能执行SELECT查询禁止DROP、DELETE 等危险操作。2具体的操作步骤用编号列表而非段落文字。Agent对结构化内容的遵循度远高于叙述性文字。3输入输出规范给出示例格式和预期输出这能显著降低结果的随机性。4硬性约束使用“必须”“严禁”“总是”等绝对化词汇。研究发现包含至少3条明确约束和1个输出示例的skill其结果的稳定性可提升60%。阶段四测试、调试与迭代创建完成后按以下清单验证路径检查确认SKILL.md位于正确的目录.claude/skills/skill-name/。YAML校验确保元数据格式正确---包裹无误。触发测试用自然语言提问观察Agent是否识别并请求使用该skill。执行验证检查输出是否符合预期格式和内容。如果skill未被触发90%的情况是description写得不够具体。调试时可运行claude –debug查看详细加载日志。AI圈最烧脑的8个概念LLM大语言模型LLMLarge Language Model就是大语言模型——当前所有AI技术的核心引擎。市面上几乎所有大模型都基于一个叫Transformer的架构训练而成。大模型的本质一个文字接龙游戏说穿了极其朴素大模型就是一个预测下一个词的机器。Token与Tokenizer大模型本质上是数学函数它只认数字不认文字。那问题来了你输入的是中文、英文、代码模型怎么看懂答案就是Tokenizer——人类和模型之间的翻译官。Tokenizer干两件事编码把你输入的文字翻译成数字喂给模型解码把模型输出的数字翻译回文字给你看Context与Context WindowContext上下文大模型每次处理任务时接收到的所有信息的总和。包括什么比你想象的多你当前问的问题之前的对话记录模型正在生成的Token可用的工具列表System Prompt开发者给你设的人设和规则……等等一切那超长文档怎么办比如你要AI分析一份上千页的产品手册不可能全塞进去。这时候就需要RAG技术检索增强生成RAG的核心思路不把整本书给模型看只把和问题最相关的几页摘出来给它。从文档中搜索和你的问题最匹配的片段只把这些片段发给模型模型基于这些片段回答你的问题既突破了Context Window的限制又控制了成本。Prompt、Prompt工程与HarnessPrompt 你给大模型的具体指令或问题。说到Prompt就不得不提一个最新的概念——Harness指令束。Harness是什么如果说Prompt是给AI写一封邮件那Harness就是给AI配了一整套工作手册。Prompt关注的是这一次怎么回答Harness关注的是AI应该怎么工作——包括身份定义、行为边界、工具使用规则、输出格式、质量标准……所有东西打包在一起形成一个完整的约束框架。Tool与MCPTool工具Tool本质上就是一个函数输入参数 → 执行操作 → 返回结果。大模型负责选择工具 汇总结果大脑工具负责执行具体操作手脚平台负责串联整个流程传话筒MCPMCPModel Context Protocol全称模型上下文协议。一句话说清楚MCP就是AI工具的Type-C接口。以前每个手机都有自己的充电接口现在统一用Type-C。MCP干的也是这事统一工具接入标准写一次代码所有平台通用。Agent与Agent SkillAgent 能自主干活的系统Agent和普通AI对话的核心区别Agent能自主规划、调用多个工具、持续工作直到把任务完成。Skills给Agent的说明书Agent Skills就是解决方案——提前写好一份说明书Agent每次干活前自动读取。本质上就是一个Markdown格式的文档包含一张图串起来AI的本质是一个预测下一个词的引擎LLM通过最小单元Token处理信息在有限的记忆空间Context里根据你的指令Prompt/Harness借助外部能力Tool/MCP自主完成任务Agent/Skill。做Agent产品你不是在做AI助手你是在重新分配责任Agent 在给定目标、约束和工具权限下能够自主推进一个任务闭环的软件执行体。注意四个关键词目标、约束、工具、闭环。没有目标它就是个聊天机器人没有约束它就是个不可控的脱缰野马没有工具它只会生成文本不会行动;没有闭环它就只是答了一句话不是完成了一件事。Agent该代理什么不是代理人是代理一段责任不要代理一个岗位要代理任务链中那些高频、可观察、可评价、可授权的部分。人和Agent的协作边界要按决策类型切不是按动作切第1层目标定义权 → 必须留在人手里这件事到底要不要做成功标准是什么什么不能碰优先级是什么Agent永远不该擅自改目标。第2层过程规划权 → 可以部分给Agent任务怎么拆先做什么后做什么缺信息时先补什么前提是目标和约束已经被讲清楚。第3层执行权 → 可以大量给Agent检索、汇总、生成、调用API、填表、排程这是Agent最该接的一段。第4层责任签字权 → 高风险动作必须回到人发给客户花钱改正式数据对外承诺发布到生产人定义目标、约束和最终责任Agent代理信息处理、任务推进和局部决策涉及高风险不可逆动作时回到人审批。一个更实用的Agent方法论PACT框架P Problem先定义问题不要先定义Agent问自己五个问题用户到底想完成什么任务这个任务原来的流程是什么卡点在哪里哪一段最值得被代理成功后用什么指标衡量A Authority定义代理权这是Agent设计文档里最容易被漏掉的一节但它最重要Agent能决定什么、不能决定什么能调用哪些工具哪些动作必须审批它能花多少钱、耗多少token、跑多久它能不能写入正式系统C Context定义上下文结构不要把所有信息一股脑塞进去。上下文至少要拆成角色规则当前任务目标用户偏好历史动作摘要工具返回结果可引用知识禁止事项当前状态机位置很多Agent一跑就乱根源不在模型在上下文失控。T Trust定义信任机制用户为什么敢把事交给它因为你给了可见的计划它打算怎么做可见的依据它为什么这么做可见的工具调用它动了什么可回滚错了能撤可审批关键步骤能拦可追责出问题能查可评估跑得好不好有数据Agent不是靠聪明赢得信任是靠透明、稳定、可预期赢得信任。PRD要重写给你一份Agent PRD的8个新模块任务定义任务名、触发条件、完成标准、失败标准代理边界什么由Agent负责什么必须人负责决策分层目标/过程/执行/签字四层分别归谁工具权限表每个工具的用途、输入输出、风险级别、是否需审批上下文设计系统规则、用户偏好、任务态记忆、长期记忆、检索/截断策略状态机待命→接收目标→澄清→规划→执行→自检→请求审批→完成/降级失败与降级策略工具失败、信息不足、低置信度、超时、越权时怎么办评估体系离线评测 在线指标 人工抽检真正决定Agent产品成败的是责任切分不是智能很多Agent产品失败是因为它们在卖像人。但用户在乎的从来不是它像不像人。用户在乎的是四件事你能不能把事推进你会不会乱来你错了我能不能看出来我是不是还得给你擦屁股一个好的Agent几乎从来不是最像人的那个。它是边界清楚、状态清楚、错误清楚、交接清楚的那个。三件事定死你的Agent代理的是信息处理还是行动执行前者采集/总结/分析/建议容易出效果后者发消息/改数据/调系统风险高很多。两条路的难度根本不在一个量级。你的Agent是单任务强闭环还是多任务通用平台绝大多数情况下先做单任务强闭环。评估清楚、工具少、上下文短、用户预期稳定才有快速迭代的空间。你的Agent失败后用户还能不能继续做事如果失败就卡死产品就是个单点故障。Agent必须是加速器不能是绊脚石。总结做Agent产品不再是设计功能给人用而是设计一套人和机器共同承担任务责任的机制。选对可代理任务划清代理权与审批边界把上下文和工具组织成稳定执行系统用评估、日志、降级机制把它做成可托付的产品