搜索核心算法：从召回到排序

张

张建站

2026/6/3 4:18:47

10分钟阅读

现代搜索引擎的核心框架的确可以概括为召回Recall和排序Ranking两大环节。在大规模工业系统中这个流程通常被细化为召回 → 粗排 → 精排 → 重排的级联架构但本质上仍属于“先找到候选集再对候选集排序”。1. 召回 —— 从海量候选里“捞”出相关项目标快速、高覆盖地从亿级甚至十亿级文档中挑出几百到几千个可能相关的候选。特点速度极快毫秒级可容忍一定粗糙度高召回率尽量少漏掉有用结果常用方法倒排索引关键词匹配传统文本搜索基础如 BM25。向量语义召回通过 Embedding 做近似最近邻ANN搜索捕捉字面不匹配但语义相关的内容。多路召回并行结合个性化召回、地理位置召回、热门召回、实时召回等多条策略结果合并后送入下游。没有高质量的召回后续排序再精细也无的放矢。2. 排序 —— 对候选集“排好队”目标精准评估每条候选的得分把最满足用户需求的结果放到最前面。特点模型更复杂特征更丰富点击率、相关性、时效性、用户画像等处理的文档量已由召回大幅缩减常见分层粗排用轻量模型如双塔、简单逻辑回归将候选从几千个快速减到几百个缓解精排压力。精排用复杂的深度模型如 DeepFM、DIN逐条精细打分追求最准确的效果。重排在精排结果之上进行多样性控制、业务规则干预如去重、打散同类目、插入广告、强插内容。3. 容易被忽略的关键环节查询理解排序前对用户输入的 Query 进行意图识别、实体识别分词、纠错、改写、联想同义词扩展、权重分配查询理解的质量直接决定了召回和排序的天花板。重排混排排序后在生成最终展示列表前需要加入多样性打散避免同一类内容扎堆广告、运营位、推荐结果的混排业务规则如黑白名单、最小间隔数4. 整体流程示意用户 Query │ ▼[查询理解]→ 纠错/改写/权重 │ ▼[多路召回]→ 倒排召回向量召回个性化召回... │ ▼[粗排]→ 轻量模型快速过滤 │ ▼[精排]→ 深度模型精准打分 │ ▼[重排]→ 多样性业务规则干预 │ ▼ 最终展示结果5. 总结召回和排序是搜索系统最核心的两大骨架。实际工业系统会拆分为更多层粗排、精排、重排本质仍是“召回 → 排序”思想的延续。系统优化的大部分精力都集中在如何召回更多真正相关的东西以及如何把它们排得更符合用户预期。如果想继续深入可以沿着多路召回策略、粗精排模型选型、重排多样性算法这几个方向研究。

远程办公刚需分享：稳定易用的云端电脑方案实测

日常办公中，很多人都会遇到这类问题：平时简单办公对硬件要求不高，但一旦需要多开程序、长期后台挂机、异地办公时，普通电脑的性能和便携性就会明显不足。单独购置高性能主机成本高，多数时间处于闲置状态，硬…...

2026/6/1 19:58:14 阅读更多 →

OpenSearch分布式搜索引擎：3大核心架构解析与实战应用指南

OpenSearch分布式搜索引擎：3大核心架构解析与实战应用指南【免费下载链接】OpenSearch 🔎 Open source distributed and RESTful search engine. 项目地址: https://gitcode.com/gh_mirrors/op/OpenSearch OpenSearch作为企业级的开源搜索和分析…...

2026/6/1 19:57:42 阅读更多 →