RAG系统优化入门到精通：拆解字节二面必考题，收藏这一篇就够了！

张

张建站

2026/7/1 21:28:40

10分钟阅读

1. 题目分析高并发场景下的 Agent 系统延迟问题往往不是某个单点慢而是处处都慢一点最终叠加成用户不可接受的等待。一个典型的 RAG Agent 请求链路可能是这样的用户提问 → Query 改写 → 向量检索 → 重排序 → Prompt 组装 → LLM 生成 → 后处理返回。每个环节各花几百毫秒串联起来就是好几秒。当并发量上去以后资源竞争和排队效应还会让这些延迟进一步恶化。面试官问这道题想考察的是你能不能从召回和生成这两个最重的环节切入拿出系统性的优化方案而不是只知道加缓存或换小模型这种表面操作。我们按请求链路的顺序先拆召回阶段再拆生成阶段最后看系统层面怎么把两者串起来做全局优化。1.1 召回阶段召回阶段的延迟主要花在三个地方Query 预处理改写、扩展、向量检索本身、以及检索后的重排序。高并发场景下这三步的优化思路差异很大。向量检索的性能瓶颈核心在于 ANN近似最近邻索引的选型和调参。不同的索引算法在延迟、召回率和内存占用之间有截然不同的取舍。IVF 类索引通过聚类把向量分成若干桶检索时只扫描最近的几个桶速度快但召回率取决于 nprobe 参数——设太小会漏掉相关文档设太大又慢回去了。HNSW 是目前工程中最常用的索引它构建一个多层的近邻图检索时沿着图结构跳转逼近目标延迟和召回率的平衡最好但内存开销大因为要把整个图结构常驻内存。对于数据量特别大亿级以上的场景可以考虑 IVF-PQ 这种量化压缩方案用精度换内存和速度。实际项目中一个容易被忽略的优化点是分区检索。把向量库按业务维度比如文档类型、租户 ID、时间范围做分区查询时先根据元数据过滤定位到相关分区再在分区内做 ANN 检索。这样做的好处不仅是缩小了搜索空间从而加速更重要的是在多租户高并发场景下不同租户的查询落在不同分区天然减少了资源争抢。Milvus 的 Partition 功能和 Qdrant 的 Payload Index 都支持这种用法。重排序的性能问题是另一个痛点。粗召回拿回 Top-100 之后用 Cross-Encoder 做精排可以显著提升相关性但 Cross-Encoder 需要把 query 和每个候选文档拼接后逐一过模型打分计算量是 O(N) 的。当并发上来以后精排很容易变成瓶颈。优化思路有两个方向一是减少进入精排的候选数量在粗召回和精排之间加一层轻量级的预过滤比如用 ColBERT 这种 late interaction 模型做快速初筛它的 token 级向量可以预计算推理时只做向量交互比 Cross-Encoder 快一个数量级二是精排请求做 batching把多个并发用户的精排请求攒成一批统一送 GPU 推理提高硬件利用率。还有一个经常被忽视的优化方向是混合检索。纯向量检索对语义相似度敏感但对精确匹配如专有名词、编号、代码片段不够好BM25 等稀疏检索则相反。把两者并行执行、结果融合常用 Reciprocal Rank Fusion不仅召回质量更好而且两路检索可以并行总延迟取决于较慢的那一路而非两者之和。1.2 生成阶段生成阶段的延迟优化比召回更复杂因为 LLM 推理本身是一个计算密集型任务而且自回归生成天然是串行的——每个 token 的生成都依赖前一个 token。KV Cache 是生成加速的基石。LLM 在自回归解码时每生成一个新 token 都需要对之前所有 token 做 Attention 计算。如果每次都从头算计算量随序列长度平方增长完全不可接受。KV Cache 的做法是把之前 token 在每一层 Attention 中计算出的 Key 和 Value 缓存下来生成新 token 时直接复用避免重复计算。这已经是所有推理框架的标配但在高并发场景下KV Cache 的内存管理变成了一个新问题——每个请求都需要独立的 KV Cache 空间并发量一大GPU 显存很快被撑满。vLLM 提出的PagedAttention机制是目前解决这个问题最优雅的方案。它借鉴了操作系统虚拟内存的思路把 KV Cache 按固定大小的页来分配和管理而不是给每个请求预分配一大块连续内存。这样做有两个好处一是消除了内存碎片显存利用率可以接近 100%二是支持了 KV Cache 在不同请求之间的共享——如果多个请求有相同的 System Prompt 前缀在 Agent 系统中这非常常见它们可以共享这部分 KV Cache 的物理页大幅节省显存。显存省下来了能同时处理的并发请求就多了排队延迟自然就下来了。Continuous Batching连续批处理是高并发场景下的另一个关键优化。传统的静态 batching 会等一批请求全部生成完毕才开始处理下一批这意味着短请求要等长请求——如果一批里有一个请求生成了 500 个 token其他只需要 50 个 token 的请求也得跟着等。Continuous Batching 改成了即完即走的策略某个请求生成结束后它的 GPU 计算槽位立即释放给排队中的新请求。这种调度机制让 GPU 始终保持在高利用率状态吞吐量可以提升 2-5 倍。vLLM、TGIText Generation Inference、TensorRT-LLM 都默认支持这个特性。推测解码Speculative Decoding是从生成算法层面加速的方案。核心思想是用一个小而快的 Draft Model 先猜出若干候选 token然后用大模型一次性并行验证这些候选 token 是否正确。如果猜对了就相当于大模型一次前向传播生成了多个 token猜错了从错误位置开始重新生成也不会比原来更慢。这种方法在大模型和小模型输出分布比较接近的场景下效果很好可以实现 2-3 倍的解码加速且不影响输出质量数学上可以证明输出分布和纯大模型完全一致。1.3 模型层面的取舍除了推理框架层面的优化模型本身也有很多降低延迟的手段。模型量化是最直接的。把模型权重从 FP16 量化到 INT8 或 INT4模型体积缩小到原来的一半甚至四分之一推理速度相应提升。GPTQ、AWQ 等量化方案在大部分任务上的精度损失很小通常在 1-2% 以内性价比极高。特别是在高并发场景下量化后的模型在同样的 GPU 上能服务更多并发请求相当于变相降低了每个请求的排队时间。模型路由Model Routing是一种更精细的策略。不是所有请求都需要最大的模型来回答——简单的问题用小模型足够复杂的问题才需要大模型。在请求进来时先做一次快速分类可以用规则、也可以用一个轻量分类器把简单请求路由到小模型响应快、成本低复杂请求路由到大模型质量高、但更慢。在实际系统中往往 60-70% 的请求都是简单问题光是把这部分流量卸载到小模型就能大幅降低大模型的排队压力。1.4 系统架构层面的全局优化单独优化召回或生成都不够真正把延迟降到极致还需要从系统架构层面做文章。召回与生成的流水线并行是一个效果很明显的优化。传统做法是先完成全部检索再把结果拼进 Prompt 送去生成——这是串行的。但其实可以做成流水线检索结果分批返回第一批结果到了就开始组装 Prompt 并触发 LLM 生成用 Streaming 方式后续的检索结果如果拿到了更好的内容可以在生成过程中动态追加或在下一轮对话中补充。这种方式让用户在检索还没完全结束时就已经看到生成内容在逐步出现感知延迟大幅降低。语义缓存Semantic Cache是高并发场景下的杀手级优化。传统缓存只能处理完全相同的请求但用户的提问往往换个说法就 miss 了。语义缓存的思路是把历史请求的 query embedding 和对应的回答存起来新请求进来时先把 query 转成 embedding在缓存中做相似度检索如果找到语义相似度超过阈值的历史请求直接返回缓存的回答。这种缓存在高并发场景下命中率出乎意料地高——因为大量用户其实在问同类问题。GPTCache 就是这类工具的代表。需要注意的是阈值调参很关键太低会返回不相关的缓存结果太高又没什么命中。异步预加载和预热也值得一提。在 Agent 系统中很多场景下是可以预判用户下一步行为的。比如用户进入某个业务场景时可以提前把该场景最可能用到的知识库分区加载到内存、预热相关的 KV Cache 前缀。当用户真正提问时检索和生成都从一个热的状态开始而不是冷启动。最后一个容易被低估的优化是输出长度控制。LLM 生成的延迟和输出 token 数量成正比。在很多 Agent 场景中模型倾向于生成冗长的回答但用户其实只需要一个简短的结论或操作指令。通过 Prompt 约束如用一句话回答、“直接给出操作步骤”或设置合理的 max_tokens可以让生成长度缩短 50% 以上延迟随之减半。这个优化看起来最不起眼但在实际项目中效果往往立竿见影。2. 参考回答高并发 Agent 系统的延迟优化我会从召回、生成、系统架构三个层面来讲。召回阶段工程上我们选 HNSW 索引做底座多租户场景下按业务维度做分区检索缩小搜索空间重排序用 ColBERT 做快速初筛控制进入 Cross-Encoder 精排的候选量再配合向量BM25 的混合检索并行执行、RRF 融合召回的延迟和质量都能兼顾。生成阶段核心是推理框架的优化——vLLM 的 PagedAttention 消除 KV Cache 显存碎片并支持前缀共享Continuous Batching 让短请求即完即走不被长请求拖累模型用 AWQ 量化到 INT4 基本不损精度但速度翻倍。我们还做了模型路由简单请求走小模型大部分流量都不需要过大模型。最后在系统层把两者串起来做全局优化语义缓存把历史 query embedding 和回答缓存起来做相似度匹配高并发下命中率很高召回和生成做流水线并行第一批检索结果到了就触发 Streaming 生成用户感知延迟大幅下降。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】