今天为大家分享一篇长文档 RAG 论文SproutRAG。长文档 RAG 最头疼的一个问题其实很朴素chunk 到底切多大切小了检索很精准但上下文容易断切大了上下文完整但噪声又会变多。很多方法选择让 LLM 帮忙切块、扩展上下文或者给层级节点做摘要。但这样又会带来在线/离线 LLM 成本、粒度固定以及摘要丢信息的问题。SproutRAG 的想法很形象别再死切 chunk让文档自己长成一棵树。长文档 RAG 的核心矛盾RAG 处理长文档时通常会把文档切成一堆 chunks再用向量检索找相关片段。但 chunk 粒度天然有矛盾。如果切成句子或很短的片段检索结果会很精准但证据可能只剩一个局部点缺少前后逻辑。比如法律合同里一个责任限制条款可能由连续几句话共同构成只找其中一句就会漏掉例外条件。如果切成大段模型能看到更多上下文但检索结果也更容易混入无关内容浪费 token还可能干扰生成。已有方法一般有三类LLM-guided chunking、single-level context expansion、hierarchical summarization。它们分别对应三个代价要调用 LLM、只能在单一粒度扩上下文、摘要可能压丢原始证据。分块切断语义哈佛InSemRAG解决了,速度快4倍SproutRAG 要解决的就是这个“精准”和“连贯”不能兼得的问题。SproutRAG方案介绍Attention-guided tree让文档自己长成树SproutRAG 的第一步是从 sentence-level chunks 出发把长文档组织成一棵attention-guided binary chunking tree。它不是人工规定哪些句子该放在一起也不是让 LLM 先总结一遍文档而是利用小语言模型 SLLM 的 inter-sentence attention。简单说模型会看不同句子之间的注意力关系哪些句子语义上更相关就先把它们合并成一个节点节点再继续合并最后形成一棵二叉树。论文中特别强调SproutRAG 学习的是 attention heads 和 layers 的加权组合而不是把所有注意力头简单平均。因为不同头捕捉的关系不同朴素平均会引入 proximity bias让距离近但语义未必强相关的句子更容易被合并。这棵树的好处是文档不再只有一种切法。叶子节点是细粒度句子中间节点是更大的语义单元更高层节点则对应更宽的上下文。Progressive embeddings每个粒度都有自己的表示树建好以后SproutRAG 不会把中间节点压缩成 LLM summary。它使用progressive embeddings让不同层级的节点都有自己的向量表示。这样做的关键是避免 summarization 带来的信息损失。大白话说SproutRAG 同时保留了多种尺度叶子句子级证据适合精确命中中间节点相邻句子组成的语义片段适合保留局部上下文子树更大的文档区域适合覆盖长距离相关信息。这就把“chunk 应该切多大”从一个固定选择变成了检索时的动态选择。Hierarchical beam search检索时沿树找证据SproutRAG 的检索也不是平铺式向量搜索。它使用hierarchical beam search在树上逐层搜索候选节点。检索时系统可以返回 fine-grained leaves、mid-level nodes也可以返回 broader subtrees。这点很重要。普通 flat retrieval 通常只能返回一堆固定大小的 chunksSproutRAG 则可以根据问题需要在不同粒度上选证据。如果问题只需要一个细节就摘叶子如果问题需要多句共同构成的解释就拿中间节点如果问题需要更宽上下文就取更大的子树。所以 SproutRAG 的检索画面不是“在碎片堆里找相似块”而是“沿着文档树摘证据”。Joint objective树结构和向量表示一起学SproutRAG 不是先随便建一棵树再训练一个检索器。论文说它用 joint objective 端到端训练同时优化 embeddings 和 tree structure。这意味着两件事会互相影响节点表示能不能被检索到树结构是不是把真正相关的句子合在了一起。Table 3 的消融实验也围绕这点展开比较了训练目标、tree/retrieval design以及 beam sizeb和lambda的影响。这也是 SproutRAG 和很多层级摘要方法的区别它不是把层级结构当成后处理而是让结构本身参与训练。实验结果论文在 scientific、legal、open-domain 等四个检索基准上评估 SproutRAG。摘要里给出的核心结果是SproutRAG 的 information efficiency也就是 IE平均比最强 baseline 提升 6.1%。SproutRAG 在四个 retrieval benchmarks 上 IE 都是最高。相对最强 baseline分别提升Dragonball8.06SCI-DOCS4.65LegalBench-RAG4.90MS MARCO6.83。这说明它不是简单把更多内容塞给模型而是更会挑内容既能保留上下文又能避免太多无关噪声。端到端结果也能看出成本优势。SproutRAG 的 online Tok/Q 是4382延迟是193ms。对比一下GraphRAG 是 16238 tokens、2317msPageIndex 是 24620 tokens、2847ms。当然PageIndex 在部分最终质量指标上更高比如 HotpotQA / WebQuestions F1 和 Dragonball 指标但它的在线成本也明显更重。SproutRAG 的定位更像是在答案质量、检索效率和在线成本之间取得更好的平衡。定性案例法律问题不能只拿一句话法律案例很能说明多粒度检索的价值。问题是协议是否限制 provider 的责任有哪些例外或排除MoC 找到了 liability cap也就是责任上限但缺少损害排除和例外条件。SAKI-RAG 找到 damage exclusion liability cap但仍漏掉 exception sentence。SproutRAG 则返回了一个 internal clause-level node把相关条款作为一个更完整的语义单元取出来。这类问题需要的不是一个孤立句子而是一组共同构成法律含义的句子。SproutRAG 的树结构正好让系统能返回“刚好够用”的证据单元。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】