2026年OpenAI在一篇博客文章提到了 Harness Engineering驾驭工程之后它就快速在AI圈里火了起来。很多人根本不知道它到底是什么就开始各种跟风吹爆。这在三天一重磅5天一炸裂的AI圈里虽然离谱但也合理。那它到底是什么和这两年很火的提示词工程、上下文工程又是什么关系图片全网资料参差不齐如有差异以我为准。今天就把这些概念串起来讲透看完你就会知道AI Agent 开发本质上在做什么为什么同样的模型换个 AI IDE效果会差这么多。有了ai程序员就不写代码是真的吗怎么做到的。Prompt Engineering把 ChatGPT、Claude 的外壳剥开里面的大模型也就是LLM本质就是一个磁盘上的超大参数文件将它加载到显卡内存里配上http接口就成了大模型API服务。给它加个聊天界面就成了聊天AI加个代码编辑器就成了AI IDE。大模型和ai应用的关系AI大模型做的事情很简单就是基于当前输入的内容预测下一个字词大概率会是什么。它本质上只是在猜你想要什么所以如果你给它输入的指令太宽泛那它预测的答案就会非常发散。比如你丢给它一段代码说“加个排序”。它可能只回你排序的那部分怎么写。你得补一句“给我完整函数代码不要乱改我的代码”它给的结果才会更符合要求。提示词能加的内容有很多比如角色设定背景、历史对话、参考文档、限制、输出格式这些约束, 构成了所谓的提示词。提示词结构而这种有意识地调整和设计提示词让模型稳定地朝着你预期的内容和格式输出的技术手段就是所谓的提示词工程。它解决的是大模型无引导乱说话的问题。提示词工程Context Engineering提示词写得越长越仔细模型知道得就越多回答就越准。反过来同理大模型回答不准那大概率是因为知道得不够多。于是大家很自然会不断往大模型里塞各种资料。这些打包到一起发给大模型的所有信息就叫上下文提示词只是上下文的一部分。上下文是什么但大模型再强一次性能处理的上下文也有最大限制这个限制叫上下文窗口。在AI大模型应用里多对话几轮就很容易将上下文窗口打满。于是就需要通过一些策略去压缩或丢弃部分信息。在这个过程中不可避免会丢失关键信息从而破坏上下文的完整性和准确性这类问题被统称为“上下文腐化”。效果上就是模型开始“记不住”、回答前后不一致。上下文窗口就这么大于是问题就变成了怎么才能在合适的时候将合适的内容塞入到有限的上下文中。于是衍生了一套负责动态管理大模型上下文的技术也就是所谓的上下文工程。上下文工程提示词是上下文的一部分那自然提示词工程其实也是上下文工程的一部分。它一般通过外部程序来实现比如 cursor、claude codetrae这类coding agent,注意这不是广子。每一家的技术实现都有差异但总的来说可以总结为三个步骤召回压缩和组装。上下文本质第一步召回说白了就是“找什么信息”。这些信息可以来自外部新闻也可以来自过去聊天记录当前代码环境以及程序运行报错等总之就是从里面找出最相关的内容。这里面涉及到一些RAGmemory等技术随便拿出一个都能单开一个视频这里先跳过。看到这里还没睡着的弹幕扣个0。信息很多上下文窗口有限所以需要将信息变小。于是引入第二步压缩比如将信息分开发给大模型做总结。之后就是组装因为信息放置的位置和顺序会直接影响模型的理解和输出比如越靠后越容易被模型关注所以我们需要通过一定的结构重新组装内容。这样进入模型的上下文更精简、更相关输出也会更稳定、更准确。不同AI工具的上下文工程策略不同所以你会发现就算用的是同一个模型不同AI工具的执行效果也会有差异。不同ai工具的上下文工程不同claude code最近也被开源了正好可以单开一期讲下它的上下文工程是怎么做的看到这里还在坚持的弹幕扣个1。Harness Engineering提示词工程解决了大模型无引导、乱说话的问题。上下文工程解决的是上下文的组织问题。模型是更聪明了但它只能聊天没法帮我们干活。于是我们可以给大模型加入 bash 沙箱、文件系统、MCP 这些能力让它能像人一样操作外部工具读写代码文件执行命令做测试。它们共同构成了执行层。将它们串成一个流程在外部套一层循环于是我们就可以通过提示词工程和上下文工程组装上下文发给大模型大模型负责思考外部程序负责执行执行过程中得到的报错等信息再加到上下文里继续推理和执行。这套一边思考一边行动的循环就是所谓的 ReAct(Reasoning Acting)。而这个能通过聊天帮你执行任务的程序就是所谓的AI Agent.AI Agent的本质Agent的本质就是一个for循环。只要这个循环一长上下文就一定会膨胀上下文工程做再好也可能会腐化。随着它看过的文件越来越多拿到的信息越来越杂前面定好的目标和约束后面可能慢慢就被冲淡了理解也会越来越偏。怎么办呢很简单只要我们可以保证每次给大模型的上下文中都包含一些可复用的核心信息比如项目目标技术栈需求背景代码风格禁止事项等。只要保证这部分一直在那大模型就能在大框架约束下减少理解偏移。这些核心信息可以单独写成文件固定在代码仓库里。比如Claude Code 用 CLAUDE.mdCursor 或 Trae 也会有各自的 rules 文件。它们暂时没有统一的名字我暂且称为规则文件。规则文件会在调用大模型的时候作为系统提示词自动注入上下文。规则文件写多了也会变长所以上下文也会很长。那就拆把它拆成几份更短的文件再加一个简单的路由比如背景就读bg.md技术栈就看stack.md一般情况下只需要加载文件地址路径真正需要的时候再加载文件的全部内容。规则文件内容将它们跟提示词工程和上下文工程配合在一起形成记忆层。有了记忆层和执行层的配合agent就能不停写代码跑linter和单元测试过程中发现执行有问题还可以将测试输出和报错加入到上下文里这样就可以驱动agent在下一轮循环中自动做修复。这套通过校验结果回传错误来实现自动修复问题的能力形成了反馈层。但 Agent 的循环如果缺乏全局规划和清晰的结束目标依然很容易跑偏甚至陷入无效死循环。所以我们还可以将大任务拆解为有明确执行标准的多个子任务就像这样1.确认开发规范 2.编写接口代码 3.编写测试用例 4.执行代码校验 5.验证功能闭环按规划驱动 Agent 分步执行。这种以全局规划为核心对任务做拆解与全流程管控的能力形成了编排层。编排层,执行层,反馈层和记忆层这些能力共同组成了一套包裹着大模型的工程外壳它就是 Harness Engineering驾驭工程。Harness Engineering是什么大模型越强外壳就 可以做的越薄。但无论怎么样这层外壳都得有。再给个公式agent等于大模型 Harness。只要不是大模型的那部分那都属于harness Engineering的范畴。存量程序员们好好看好好学以后它就是我们的主战场啦。那增量程序员怎么说评论区会给你答案。agent和harness的关系Harness Engineering有哪些落地方案概念理解了那最重要的问题来了怎么落地以Claude Code为例Claude Code软件本身已经原生支持harness的四层能力所以最轻量的做法就是在 CLAUDE.md 文件里写清楚项目背景是什么你希望大模型做什么别做什么做完之后要跑哪些lint、单测和CI执行哪些skill就行。如果不想自己写那么累那就引入一些插件。比如 spec-kit 这类扩展它们会根据项目将需求拆成多个阶段。Spec-kit这类SDD做的事情也很简单就是先生成对应的约束文件明确需求再制定具体开发计划拆解任务最后才是实际修改测试。每个阶段都可能会更新一次CLAUDE.md这样每一阶段注入上下文的尽可能都是核心信息。这套开发方式也叫Spec-Driven Development,简称SDD。本质上做的事情就是Harness Engineering的落地。但spec-kit整体还是不够强我相信很快会有更加全面的替代方案出现。有了Harness Engineering之后程序员的工作内容就从写代码慢慢改为写规则和skill所以有句话是这么说的你那些拿了N1的同事其实从未离开你他只是变成了skill默默陪伴你。你就说暖不暖心吧。提示词工程可以让大模型明白你的具体需求和输出标准。上下文工程可以给大模型注入精准有效的上下文。驾驭工程可以让大模型持续按规范执行任务并最终交付。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。