小chunk和大段落，SproutRAG用注意力组起来了

张

张建站

2026/6/26 2:27:43

10分钟阅读

今天为大家分享一篇长文档 RAG 论文SproutRAG。长文档 RAG 最头疼的一个问题其实很朴素chunk 到底切多大切小了检索很精准但上下文容易断切大了上下文完整但噪声又会变多。很多方法选择让 LLM 帮忙切块、扩展上下文或者给层级节点做摘要。但这样又会带来在线/离线 LLM 成本、粒度固定以及摘要丢信息的问题。SproutRAG 的想法很形象别再死切 chunk让文档自己长成一棵树。长文档 RAG 的核心矛盾RAG 处理长文档时通常会把文档切成一堆 chunks再用向量检索找相关片段。但 chunk 粒度天然有矛盾。如果切成句子或很短的片段检索结果会很精准但证据可能只剩一个局部点缺少前后逻辑。比如法律合同里一个责任限制条款可能由连续几句话共同构成只找其中一句就会漏掉例外条件。如果切成大段模型能看到更多上下文但检索结果也更容易混入无关内容浪费 token还可能干扰生成。已有方法一般有三类LLM-guided chunking、single-level context expansion、hierarchical summarization。它们分别对应三个代价要调用 LLM、只能在单一粒度扩上下文、摘要可能压丢原始证据。分块切断语义哈佛InSemRAG解决了,速度快4倍SproutRAG 要解决的就是这个“精准”和“连贯”不能兼得的问题。SproutRAG方案介绍Attention-guided tree让文档自己长成树SproutRAG 的第一步是从 sentence-level chunks 出发把长文档组织成一棵attention-guided binary chunking tree。它不是人工规定哪些句子该放在一起也不是让 LLM 先总结一遍文档而是利用小语言模型 SLLM 的 inter-sentence attention。简单说模型会看不同句子之间的注意力关系哪些句子语义上更相关就先把它们合并成一个节点节点再继续合并最后形成一棵二叉树。论文中特别强调SproutRAG 学习的是 attention heads 和 layers 的加权组合而不是把所有注意力头简单平均。因为不同头捕捉的关系不同朴素平均会引入 proximity bias让距离近但语义未必强相关的句子更容易被合并。这棵树的好处是文档不再只有一种切法。叶子节点是细粒度句子中间节点是更大的语义单元更高层节点则对应更宽的上下文。Progressive embeddings每个粒度都有自己的表示树建好以后SproutRAG 不会把中间节点压缩成 LLM summary。它使用progressive embeddings让不同层级的节点都有自己的向量表示。这样做的关键是避免 summarization 带来的信息损失。大白话说SproutRAG 同时保留了多种尺度叶子句子级证据适合精确命中中间节点相邻句子组成的语义片段适合保留局部上下文子树更大的文档区域适合覆盖长距离相关信息。这就把“chunk 应该切多大”从一个固定选择变成了检索时的动态选择。Hierarchical beam search检索时沿树找证据SproutRAG 的检索也不是平铺式向量搜索。它使用hierarchical beam search在树上逐层搜索候选节点。检索时系统可以返回 fine-grained leaves、mid-level nodes也可以返回 broader subtrees。这点很重要。普通 flat retrieval 通常只能返回一堆固定大小的 chunksSproutRAG 则可以根据问题需要在不同粒度上选证据。如果问题只需要一个细节就摘叶子如果问题需要多句共同构成的解释就拿中间节点如果问题需要更宽上下文就取更大的子树。所以 SproutRAG 的检索画面不是“在碎片堆里找相似块”而是“沿着文档树摘证据”。Joint objective树结构和向量表示一起学SproutRAG 不是先随便建一棵树再训练一个检索器。论文说它用 joint objective 端到端训练同时优化 embeddings 和 tree structure。这意味着两件事会互相影响节点表示能不能被检索到树结构是不是把真正相关的句子合在了一起。Table 3 的消融实验也围绕这点展开比较了训练目标、tree/retrieval design以及 beam sizeb和lambda的影响。这也是 SproutRAG 和很多层级摘要方法的区别它不是把层级结构当成后处理而是让结构本身参与训练。实验结果论文在 scientific、legal、open-domain 等四个检索基准上评估 SproutRAG。摘要里给出的核心结果是SproutRAG 的 information efficiency也就是 IE平均比最强 baseline 提升 6.1%。SproutRAG 在四个 retrieval benchmarks 上 IE 都是最高。相对最强 baseline分别提升Dragonball8.06SCI-DOCS4.65LegalBench-RAG4.90MS MARCO6.83。这说明它不是简单把更多内容塞给模型而是更会挑内容既能保留上下文又能避免太多无关噪声。端到端结果也能看出成本优势。SproutRAG 的 online Tok/Q 是4382延迟是193ms。对比一下GraphRAG 是 16238 tokens、2317msPageIndex 是 24620 tokens、2847ms。当然PageIndex 在部分最终质量指标上更高比如 HotpotQA / WebQuestions F1 和 Dragonball 指标但它的在线成本也明显更重。SproutRAG 的定位更像是在答案质量、检索效率和在线成本之间取得更好的平衡。定性案例法律问题不能只拿一句话法律案例很能说明多粒度检索的价值。问题是协议是否限制 provider 的责任有哪些例外或排除MoC 找到了 liability cap也就是责任上限但缺少损害排除和例外条件。SAKI-RAG 找到 damage exclusion liability cap但仍漏掉 exception sentence。SproutRAG 则返回了一个 internal clause-level node把相关条款作为一个更完整的语义单元取出来。这类问题需要的不是一个孤立句子而是一组共同构成法律含义的句子。SproutRAG 的树结构正好让系统能返回“刚好够用”的证据单元。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

RAG答案溯源:让回答能查到出处

先把结论摆这儿:想让 RAG 的每句回答都能查到引用出处,核心就一件事——在切片入库时给每个 chunk 打上来源元数据(文件名、段落号、原文),检索回来后让模型在答案里带上编号,最后把编号映射回原文。听起来绕,实际改动不大,我用一个下午折腾通了,下面是完整步骤。背景交代一下…...

2026/6/26 2:27:26 阅读更多 →

调整Gradle版本

打开android目录下的gradle/wrapper/gradle-wrapper.properties，把下面这行配置 distributionUrlhttps\://services.gradle.org/distributions/gradle-8.10.2-bin.zip 改成如下这行配置，表示把Gradle版本从8.10.2降级到8.7。 distributionUrlhttps\:/…...

2026/6/26 2:23:08 阅读更多 →

AI获客优化是什么，为什么本地商家离不开它

你的客户正在用AI找你，但你没出现在答案里最近一位江门做甲醛治理的朋友跟我诉苦：“明明生意不错，可新客户越来越少。”我问他：“当有人问‘江门哪家除甲醛靠谱’，你在豆包、通义千问里排第几？”他愣住了—…...

2026/6/26 2:19:55 阅读更多 →

手撕CNN：从卷积计算到工程落地的全链路解析

1. 这不是“讲概念”的课，是带你亲手拆开CNN看齿轮怎么咬合你点开这篇，大概率不是为了背定义——可能刚被导师甩来一篇CVPR论文，满页的feature map、stride、padding看得头皮发麻；也可能在调一个图像分类模型，loss曲线…...

2026/6/25 10:56:32 阅读更多 →

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PVZ Toolkit是一款专为经典游戏植物大战僵尸设计的综合修改器，它为玩家…...

2026/6/25 6:32:44 阅读更多 →

嵌入式功能安全实践：NXP IEC60730B安全库核心测试与集成指南

1. 项目概述与功能安全背景在嵌入式系统开发领域，尤其是涉及家电、工业控制、汽车电子等安全关键型应用时，仅仅实现功能正确是远远不够的。系统必须在整个生命周期内，具备检测并响应内部硬件故障的能力，以防止因随机硬件失效导致…...

2026/6/25 10:56:32 阅读更多 →

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款专为二次元游戏模组管理设计的开源平台…...

2026/6/25 10:56:32 阅读更多 →