9.上下文工程在之前的章节中我们为智能体引入了记忆与工具能力。然而要让Agent在真实复杂场景中稳定地“思考”与“行动”仅有记忆与检索还不够——我们还需要一套系统化的工程方法持续为模型构造恰当的上下文。这就是本章的主题上下文工程Context Engineering。到2026年上下文工程已成为AI Agent开发中最受关注的技术领域之一。这份总结将基于当前最新的理论框架与工程实践为你完整呈现这一领域的发展现状。9.1 从Prompt到Context再到Harness9.1.1 三层架构的演进你可能会好奇上下文工程和提示词工程有什么区别提示词工程关注的是如何表达任务怎么把任务说清楚而上下文工程关注的是模型工作时应该处于什么信息环境里模型在做决策时能看到什么。然而随着Agent系统变得越来越复杂单纯管理上下文也已不够用。到2026年行业已经形成了清晰的三层架构认知层级核心问题典型技术适用范围Prompt Engineering怎么把任务说清楚结构化提示、思维链、角色设定单轮、边界清晰的任务Context Engineering模型做决策时看到什么RAG、记忆管理、动态检索、压缩多步骤、长周期Agent任务Harness Engineering模型运行在什么样的系统里状态机、权限控制、可观测性、审计企业级、大规模多Agent系统这三层不是替代关系而是分层协作的——好的Agent系统需要在每一层都做对。正如Karpathy所比喻的LLM就像一种新型操作系统上下文窗口就是工作内存RAM上下文工程本质上是为这个操作系统构建完整的内存管理系统。9.1.2 上下文工程的精确定义上下文工程是在每次模型调用时精心策划进入上下文窗口的全部信息内容的工程学科。它的核心问题只有一个在有限的上下文窗口里用最少的token、最高信号密度的信息来最大化获得期望结果的概率。Anthropic给出的定义是当Agent朝向更长的时间跨度和多轮推理演进时核心挑战变成了管理整个上下文状态其中包括系统指令、工具、MCP服务器、外部数据和消息历史。9.2 为什么上下文工程如此重要9.2.1 上下文有边际收益递减这是生产环境中Agent失败的最隐蔽原因——模型在长上下文中表现会显著下降。研究发现当前模型的有效上下文利用率通常只有50%-65%从4K到128K的上下文中大多数模型会损失15%-30%的准确率。Llama 3.1-70B在4K时准确率96.5%到128K时降至66.6%——这是接近30%的性能滑坡。这种现象被称为上下文腐蚀。造成腐蚀的原因主要有三个U形注意力曲线Lost in the Middle——模型对上下文中间位置信息的关注度远低于两端长度诱导的性能崩溃——2025年的研究证实即使强迫模型只看需要的信息把无关内容全部遮掉性能还是会下滑13.9%到85%以及任务类型导致的利用率差异——检索任务利用率高推理任务中等聚合任务最低。对工程实践的启示更大的上下文窗口并不能解决腐蚀问题甚至可能让问题更糟。因此不要假设模型能有效利用你给它的全部信息必须有意识地管理。9.2.2 注意力是有限资源上下文工程的稀缺性源于Transformer的架构约束——每个token与上下文中的所有token建立注意力关系形成n²级别的两两注意力矩阵。随着上下文增长注意力预算被“拉薄”。模型在训练时接触的短序列远多于长序列因此缺乏对长上下文依赖的经验。正如Anthropic所指出的优秀的Agent与普通Agent的差距往往不是因为原始请求的措辞而是取决于关键信号是否在正确时刻出现在上下文窗口内。9.3 上下文工程的四大核心策略在生产环境中优秀的上下文工程实践围绕四个核心策略展开信息卸载、压缩整合、按需检索与渐进式披露、注意力操纵。策略一信息卸载信息卸载是最基础也最被低估的策略——不要把大量信息都放在上下文窗口里而是把它们卸载到外部存储。Manus的经验Manus团队是这方面的先行者。他们将工具输出如网络搜索结果直接写入沙箱文件系统而不是保留在消息历史中Agent只获得必要的简短信息如文件路径在需要时再引用完整上下文。这样既大幅减少了上下文消耗又做到了无损保留。文件系统本身就是结构化记忆——Agent学会按需读写文件记忆大小不受限制本质上持久存在。Manus采用分层动作空间Level 1用函数调用处理原子操作Level 2用语言命令处理复杂任务。KV缓存命中率是Manus团队最重要的生产指标——在典型Agent工作流中输入与输出token比例高达100:1缓存命中率直接影响成本和延迟。策略二压缩整合压缩是把长历史对话“高保真”总结用一个摘要替代原始冗长历史以维持长程连贯性。实践经验先优化召回确保不遗漏关键信息再优化精确度一种安全的“轻触式”压缩是对“深历史中的工具调用和结果”进行精简。业界已有技术如CompactPrompt——将硬提示压缩与轻量级文件级压缩融合实现端到端压缩。OpenAI最新模型引入的“压缩”机制允许智能保留关键信息并丢弃无关细节。策略三按需检索与渐进式披露Agent不需要一次性加载所有信息而是维护轻量化引用文件路径、存储查询在运行时按需动态加载所需数据。文件系统即上下文不再需要为所有内容提前建立向量索引。Agent直接用命令行工具grep、find、cat进行即时探索——查看日志文件几行、搜索代码中的某个模式、快速了解目录结构。渐进式披露每步交互产生新的上下文反过来指导下一步决策——文件大小暗示复杂度命名暗示用途时间戳暗示相关性Agent得以构建分层理解只在工作记忆中保留“当前必要子集”。策略四注意力操纵KV缓存管理生产Agent指标中KV缓存命中率最重要——直接决定延迟和成本。在Manus平均输入输出token比例约为100:1预填充远大于解码缓存优化是最直接的杠杆。待办事项操控注意力将关键任务以清单形式置于上下文开头或结尾——“中间”易被遗忘“两端”更受关注。保留错误信息让Agent从失败中学习而不是简单丢弃错误记录。9.4 上下文工程的三大前沿演进如果你想让自己的系统具备更高级的上下文管理能力以下是2026年最值得关注的方向。9.4.1 Agentic Context Engineering (ACE)ACE是斯坦福大学、SambaNova Systems与UC Berkeley的联合研究ICLR 2026收录将上下文视为一个可以不断演化、反思和优化的“操作手册”。ACE的核心贡献是将知识表示为带元数据的结构化条目标识符、有用性计数每次更新时应用增量增量更新。在评估中ACE相比强基线在Agent任务上提升10.6%在金融任务上提升8.6%显著减少了适应延迟和Rollout成本。一个值得关注的成就是ACE用一个更小的开源模型DeepSeek在AppWorld上匹配了顶级生产的GPT-4.1 Agent性能。9.4.2 Meta Context Engineering (MCE)MCE是同一团队提出的配套框架旨在自动发现并优化那些超越人类直觉的策略——用AI来优化AI的上下文。其核心通过双层优化架构解耦上下文工程策略与被优化的上下文工件实现两者共同演化并利用LLM自身的语言先验优势进行策略发现。9.4.3 Harness EngineeringHarness Engineering是2026年的新主线——它关注的是为Agent建立一个系统级的“控制框架”通过状态机、权限系统、验证与可观测性等机制在拥抱不确定性的同时建立安全与可控边界。Harness的核心组件包括状态持久化将中间结果存储至外部数据库而非全部保留在上下文窗口工具调用隔离与权限控制执行沙箱白名单机制人机协作路由关键节点设置人工确认以及全面的可观测性日志、追踪、评估指标。9.5 总结与展望本章的核心框架可概括为一个金字塔模型基座——策略执行信息卸载、压缩整合、按需检索、注意力操纵中台——系统能力KV缓存、文件系统即记忆、分层动作空间、人机协作顶层——自主演进Agentic CE自我优化的上下文 Meta CE自动发现策略最后的建议上下文工程是一门“实验科学”。Manus创始人季逸超有句名言——通过大量试错来寻找局部最优解团队亲切地称之为“随机梯度下降”。这揭示了上下文工程的实践本质它需要持续的测量、分析和迭代而不是一劳永逸的配置。一、基础认知篇Q1Prompt Engineering 和 Context Engineering 的核心区别是什么这是Agent面试的必考入口题面试官想听的是视野升级。维度Prompt EngineeringContext Engineering关注点怎么把一句话写得更好系统层面怎么组织输入环境生命周期单次请求会话级/跨会话管理核心手段系统提示词优化、Few-shotRAG、记忆管理、动态检索回答信号“我仔细拆解了你的问题”“我在合适的时候给了模型正确的信息”可理解为“微观调词”与“宏观信息架构”的升级。Q2Agent 为什么离不开 Context Engineering面试官不是要你背诵定义而是看你有没有工程落地的真实体感。满分回答Agent的核心是放在LLM外面的一整套控制回路。上下文决定模型在决策时能看到什么——上下文质量不对模型看到的信息要么缺失、要么混乱、要么过载后面所有推理都会出问题。在真实生产环境里上下文工程要解决四个核心问题工程问题产生原因上下文工程的应对上下文腐蚀token增加后模型准确回忆信息的能力下降通过压缩整合Compaction和摘要缓冲保持高信号密度Lost in the Middle模型对上下文中间位置信息的关注度显著低于两端关键信息放在开头或结尾注意力操纵上下文溢出长对话累积超窗口限制信息分层和按需检索信号稀释大量低质量信息混入上下文基于相关性和新近性的智能筛选二、上下文管理策略篇Q3上下文窗口不够用了怎么办字节面试高频题面试官想听的是你有分层策略意识。四个层次的处理方案策略实现方式适用场景成本滑动窗口保留最近N轮最早的消息直接截断聊天机器人、快速问答Token低对话摘要LLM将早期对话压缩成摘要客服、研究助理LLM调用增加Token缓冲区按token精确截断而非消息条数精细控制预算的场景复杂度高按重要性丢弃LLM评估每条消息的重要性只保留重要信息优先级分明的任务依赖评估质量生产环境里的推荐做法是分层结合工作记忆只持有当前会话的高频数据会话摘要缓冲滚动压缩长期记忆按需向量检索。附加追问“如果只做滑动窗口早期重要的系统指令被截断了怎么办”参考答案把系统指令放在context的开头利用模型对开头位置的高注意力来保护。这也是Manus团队采用的思路将关键上下文标记为“高保留优先级”在截断时优先保留。Q4上下文工程的 GSSC 四阶段是什么Gather-Select-Structure-Compress 是工业界公认的四阶段流水线。阶段操作核心价值工程挑战Gather汇集候选信息确保信息覆盖度多来源去重、质量过滤Select基于相关性和新近性评分在预算内选择最相关信息评分权重的调优、相关性计算Structure分区输出信息提升模型理解和可调试性分区逻辑设计Compress超限时压缩兜底确保系统稳定运行压缩质量与信息完整性平衡评分公式的核心combined_score relevance_weight × relevance_score recency_weight × recency_score其中relevance_weight recency_weight 1.0常见配置是relevance_weight 0.7recency_weight 0.3。公式背后的工程逻辑是在有限token预算内选择综合得分最高的信息。面试官追问“这4个阶段如果某个阶段失效了会对最终模型表现产生什么影响”参考答案Gather失效→信息缺失无法回答Select失效→选择无关信息淹没关键信号影响推理Structure失效→模型难以定位关键信息Compress失效→token超限API调用失败。Q5Context Window 越长越好吗❌ 不是。面试官想听你暴露对实际性能表征的理解。三个核心局限上下文腐蚀即使支持长窗口模型从长上下文中准确检索信息的能力也会下降。有效利用率通常只有50-65%注意力预算被稀释Transformer架构下每个token与上下文中的所有token形成注意力关系随着上下文增长注意力被“拉薄”位置编码插值的精度损失训练时处理的是短序列推理时长上下文需位置编码插值会牺牲部分位置精度参考数据Llama 3.1-70B在4K时准确率96.5%到128K时降至66.6%性能下降接近30%。Q6什么是“Lost in the Middle”现象简洁回答LLM对上下文中间位置的信息关注度显著低于开头和结尾。这会导致两类问题关键信息放中间可能被忽略上下文中间的内容检索准确率下降10-20%。工程启示将有价值的信息尽量放在上下文窗口的开头或结尾。Manus团队正是利用了这一点优化KV缓存命中率。Q7上下文压缩是怎么做的答案分三个层次层次策略适用场景轻触式清理深历史中工具调用和输出常规长对话摘要式将早期对话压缩为高保真摘要多步任务长时运行结构压缩利用分区结构保留核心信息分区上下文结构明确的场景高级策略当对话接近上下文上限时对其进行高保真总结用摘要替代原始历史。先优化召回再优化精确度确保不遗漏关键信息。Q8长上下文窗口下模型不会自己“记住”内容吗Agent开发岗的灵魂拷问。面试官想听你具备工程现实感能讲出“为什么长上下文不是万能药”。参考答案长上下文窗口并不等同于模型能有效利用。原因有三上下文腐蚀即使支持长窗口模型从长上下文中准确检索信息的能力也会下降注意力是有限资源上下文窗口越大注意力预算越被稀释训练分布偏差模型在训练时接触的短序列远多于长序列“Lost in the Middle”模型对上下文中间位置信息的关注度显著低于两端更关键的一层即便未来上下文再扩展信息组织、筛选、压缩的策略也不会消失。因为信息不是“能塞进去就行”而是要确保“模型能在正确的时候看到正确的信息”。上下文工程不是模型能力的临时补丁而是信息架构的长期职能。三、记忆分层设计篇Q9Agent的记忆一般怎么设计阿里淘天必考题面试官最期待听到的关键词是“分层”。标准答案工作记忆 (Working Memory)当前对话的状态和关键结论存在context window里进程内存储毫秒级延迟容量受限会话记忆 (Summary Buffer)摘要滚动跨会话语义压缩分钟级到小时级长期记忆 (External Memory)向量检索/结构化库存储历史信息持久化存储按需查询支持语义检索四层记忆模型进阶版感知记忆Sensory→ 短期记忆Working→ 长期记忆External→ 实体记忆Entity。面试官追问时一定要能展开“存什么、怎么存、何时取”这三大核心问题。Q10短期记忆和长期记忆的区别分别怎么存储维度短期记忆Working Memory长期记忆External Memory生命周期当前会话跨会话持久化存储介质Context Window向量数据库/图数据库/关系数据库访问模式即时读取按需语义检索容量有限token限制可扩展GB-TB级核心技术进程内存储 TTL向量化 相似度搜索两层结构是数据规模和访问频率的自然分层——高频、短时数据留在内存低频、长时数据外存。Q11工作记忆只存“当前任务的上下文信息”——怎么做到的腾讯高频题。面试官想验证你是否亲手调过生产级Agent。参考答案工作记忆的维护采用分层策略进程内状态容器存储会话运行时状态当前任务阶段、已确认偏好、工具调用中间结果接收当前用户输入、持有最近N轮对话历史注意不是所有历史内存生命周期管理用TTL机制实现过期自动清理关键设计工作记忆的核心职责只有三个——接收输入、持有最近N轮对话、维护会话运行时状态。不要把它当成“万能容器”把所有用户偏好和知识都往里塞。正确做法是工作记忆只持有当前会话窗口内高频访问的数据。面试官追问示例“用户注册信息姓名、偏好、等级是存在工作记忆还是长期记忆为什么”参考答案长期记忆。工作记忆会在会话结束后清空用户的身份信息属于需要跨会话保留的陈述性知识应写入长期记忆。Q12多用户场景下如何实现记忆隔离阿里淘天一面真题这道题本质是在考你有没有在脑子里构建过一套完整的状态管理世界观。工程答案session_id统一管理每个用户独立的session_id写入记忆时带上元数据user_id、session_id、timestamp存储设计结构化数据库加user_id字段过滤向量数据库用metadata过滤键值存储用命名空间隔离检索时用过滤条件确保只命中当前用户数据多租户架构schema隔离 vs 数据库隔离按业务规模和合规需求选择四、工程优化与安全Q13KV缓存命中率为什么是生产Agent最重要的指标Manus团队核心经验。参考答案在典型Agent工作流中输入输出token比例约为100:1预填充远大于解码。KV缓存命中率直接影响成本和延迟——命中率高意味着复用之前计算过的键值对重复使用计算结果大幅降低成本和延迟。衡量一个Agent系统是否成熟看它对KV缓存命中率的重视程度就足够了。从系统优化的视角看KV缓存命中率是这些优化中最立竿见影的指标。无状态的Agent调用天然是KV cache友好的。Q14工具数量超过50个怎么防止工具描述爆炸这是Pinterest、Uber等大厂真实的工程经验。高分回答三层防御 渐进式工具发现。策略具体做法效果渐进式工具发现当工具描述可能超过上下文10%时自动延迟加载Token降低约85%领域特定服务器将工具按领域拆分隔离避免所有工具定义全部挤进上下文控制上下文膨胀工具数量掩码根据查询类型动态过滤可用工具列表避免工具选择混乱Claude Code的基准测试结果显示token使用量大约降低了85%。Q15上下文爆炸怎么预防参考答案分层架构Working Memory Summary Buffer External Memory三层记忆体系信息按生命周期分层存储容量上限 优先级策略关键信息如用户问题、系统指令、Agent身份分配高优先级token预算低价值信息先淘汰定期压缩整合当对话接近上限时对历史进行高保真总结主动检索长期记忆按需查询而不是被动加载Q16长时程任务跨会话、需几小时甚至几天的上下文怎么管理参考答案需要三大核心策略协同压缩整合定期对累积对话进行高保真总结用摘要替换原始历史结构化笔记将关键信息任务阶段、结论、阻塞点、行动项写入外部文件持久化保存子代理架构主代理高层规划各专业子代理独立上下文窗口深挖仅回传凝练摘要面试官追问“生产环境里结构化笔记通常用什么格式”参考答案Markdown YAML前置元数据。YAML便于机器提取结构化信息Markdown正文方便人类阅读和手动编辑纯文本天然支持Git版本控制这是工业界最佳实践。Q17如何防止Agent忘记重要的跨会话信息参考答案写入长时记忆时设置importance阈值核心信息自动存储引入“记忆整合”机制重要性超过阈值如0.7的工作记忆自动转入情景记忆或长期记忆设计定期回顾机制让Agent在对话开始时主动加载用户的关键记忆如偏好、上次对话结论结合向量检索语义召回确保相关信息能在需要时被主动发现Q18上下文质量怎么评估在生产中怎么衡量参考答案从五个维度构建评估体系评估维度衡量方法健康标准相关性检索top-k文档与问题的语义相似度分布avg相似度0.6充分性答案所需信息是否均在上下文中覆盖盲测覆盖率90%经济性每任务平均token消耗基线vs优化版本对比新鲜度上下文信息的时效性关键信息更新时间可溯源是否能追溯到信息来源每条证据都能溯源Q19多源上下文冲突如记忆和RAG同时查到矛盾信息怎么解决参考答案三阶段处理冲突检测阶段LLM识别矛盾信息标注置信度和来源低置信度标记待解决消歧决策阶段采用分层仲裁——自动条件时间戳、来源权威性、重要性用规则LLM判断语义分析后决策人工干预高风险场景需反馈记录与修复阶段冲突记录到记忆优化信息来源五、RAG与HyDE/MQE深度篇Q20RAG核心流程是什么数据准备文档接入、清洗切分、向量化、索引构建 在线查询查询理解、检索召回、rerank、上下文构造、大模型生成、答案校验线上还需补充权限过滤和可观测。分块策略、向量维度一致性、检索质量这些点经常被追问。Q21RAG到底解决了什么问题参考答案RAG通过检索生成双引擎架构解决LLM的三大知识缺陷知识时效性训练数据有截止期 → RAG可实时访问最新文档私有数据无法触达企业内部数据不在训练集中 → RAG通过向量化安全访问容易幻觉模型无依据瞎编 → RAG让LLM基于检索的事实回答Q22纯向量检索有什么问题向量检索语义理解强但精确词匹配弱搜“K8s HPA配置”可能找到“Kubernetes自动扩能算法”语义相关但没具体内容。BM25正好相反精确匹配强、速度快但语义理解弱。混合检索两路结果合并取长补短通过RRF公式融合排序RRF_score(d) Σ 1/(k rank_i(d))Q23RAG的幻觉怎么处理四层防御体系检索兜底低相似度自动拒答生成约束强制LLM引用检索内容标注置信度事后验证Self-RAG——LLM在生成答案时对每个句子自我评估是否基于检索内容是否有事实错误多源交叉验证多路检索相互印证Q24MQE 和 HyDE 分别是做什么的有什么区别这是资深RAG开发者的必修题。面试官想考察你对召回率优化策略的理解深度维度MQE多查询扩展HyDE假设文档嵌入核心思想生成多样化表达用“答案”找“答案”做法用LLM生成n个不同表述的查询如“如何学Python”→“Python入门教程”“Python学习方法”并行检索合并去重先让LLM生成假设性答案段落用此段落向量去检索真实文档适用场景用词多样性差异大的查询查询与文档在语义空间分布存在偏移的场景成本n次检索 1次LLM调用1次LLM生成 1次检索区别的本质是解决问题不同MQE解决“表述差异导致的漏召回”HyDE解决“查询与文档语义空间不对齐”。生产实践中建议组合使用。六、面试必杀技高分逻辑总结分层思维记忆是分层设计的不是单层存储working → summary → external工程现实感长上下文 ≠ 万能上下文腐蚀、Lost in the Middle、注意力稀释等工程问题客观存在系统化格局只答RAG是“检索生成”和能说出“向量、BM25、rerank、HyDE、MQE、缓存优化”全链路在面试官眼里是两个层级可迁移框架Agent的上下文管理本质是一套可复用的信息架构方法论这是面试官真正想验证的核心能力——即便未来新的模型架构出现这套框架本身不太会过时