收藏！小白程序员必看：大模型分块策略深度解析，附基准测试对比

张

张建站

2026/4/10 11:56:45

10分钟阅读

本文通过对比分析2026年四项独立基准测试揭示递归字符拆分策略在大模型分块中的优越性指出语义分块在检索和生成上的悖论并给出针对不同文档类型的分块策略选择指南。强调分块策略需关注端到端答案准确率避免被表面“智能”标签误导。一、先说结论做 RAG 的人大概都经历过这么个阶段一开始按固定长度切文档觉得太粗糙然后换成语义分块觉得这才智能结果上线后发现回答质量反而掉了。到底出了什么问题2026 年初FloTorch、NVIDIA、Chroma Research 和 Superlinked VectorHub 四家机构分别发布了 RAG 分块策略的基准测试报告。测试方法不同、数据集不同、评估指标也不同但指向了同一个方向——递归字符拆分Recursive Character Splitting仍然是最稳的通用选择而语义分块在实际答案生成上存在一个容易被忽视的陷阱。这篇文章把四项测试的数据掰开了讲帮你搞清楚什么场景该用什么切法以及那些听起来更高级的策略为什么不一定更好用。二、语义分块的悖论检索 91.9%答案 54%先看最反直觉的一组数据。Chroma Research 的测试中语义分块拿到了 91.9% 的 Token 级检索召回率——找到了几乎所有相关文本。听起来很棒。但在 FloTorch 2026 年 2 月的端到端测试中50 篇学术论文覆盖 10 个学科总计 905,746 tokens语义分块的最终答案准确率只有 54%。同一策略一个 91.9%一个 54%差在哪里差在衡量的东西不一样。Chroma 测的是能不能找到相关的文字片段FloTorch 测的是大模型基于这些片段能不能给出正确答案。语义分块的问题在于它产生的分块太碎了。在 FloTorch 测试中平均每个分块只有 43 个 tokens大约两三句话。这些微小片段确实和查询语义相关但信息密度太低大模型拿到手里拼不出完整答案。换个比喻你让人帮你找一本书里关于某个话题的内容。语义分块相当于把相关的句子一条条撕下来递给你每条都相关但你读完一堆纸条还是不知道原文在讲什么。这个发现的实际意义是不要单独看检索指标来评估分块策略必须跑端到端的答案准确率。三、四项基准测试的核心数据逐个拆解一下。FloTorch 2026最大规模真实文档测试语料50 篇学术论文905,746 tokens涵盖 10 学科模型gemini-2.5-flash-lite生成text-embedding-3-small嵌入冠军递归字符拆分 512 tokens准确率 69%固定大小 512 tokens 紧随其后67%语义分块 54%基于命题的代理式分块垫底递归拆分赢在哪里它优先按段落/n/n切其次按换行、空格逐级降级。这意味着它尽可能保留了文本的自然边界同时不依赖任何额外的模型调用。零成本加成效果最好。NVIDIA 2024金融文档专项语料含 FinanceBench 在内的 5 个数据集发现页面级分块在金融报告上表现最好准确率 0.648因为财务报告的页面边界通常对应完整的表格或章节1024 tokens 的大分块在 FinanceBench 上达到 57.9%金融文档的启示当文档自身的物理结构分页、章节承载了语义信息时利用这种结构比按 token 数切更合理。Chroma Research检索阶段专项关注 Token 级检索召回率语义分块 91.9%检索阶段确实强但正如上面说的这个数字不等于最终答案质量Superlinked VectorHub嵌入模型对比句子级分割 ColBERT v2 拿到最高 MRR 0.3123说明分块策略和嵌入模型的选择是耦合的换了模型可能结果完全不同四、策略怎么选策略这么多怎么在自己的项目里做决策下面这张图是我按文档类型的选型速查仅供参考。核心思路就四步第一步默认用递归字符拆分。512 tokens 分块50-100 tokens 重叠。这是经过基准验证的最稳默认值。不需要额外模型调用处理速度快成本低。大多数通用场景到这一步就够了。第二步有结构就用结构。PDF 报告有分页用页面级分块。Markdown 文档有标题层级用标题感知分块。代码仓库按函数或类切。前提是文档的结构边界确实承载了语义信息。第三步话题混杂才考虑语义分块。会议纪要、多话题长文档话题转换没有明显的格式标记这时候语义分块的按话题自动断句能力才有用武之地。但一定要设最小分块下限建议 ≥ 256 tokens防止碎片化。第四步高价值场景上 LLM 分块。法律合同、监管文件、技术规范这类文档单篇价值极高数量有限。让 LLM 判断语义完整单元质量最高对模型要求没那么高单篇处理成本也很低了。五、一些实操中容易踩的坑坑一重叠设太大。有人把重叠设到 30-50%想着多些上下文总没坏处。实际上过大的重叠会导致索引膨胀检索时返回大量重复内容反而干扰大模型判断。10-20% 是多个测试验证过的甜区。坑二对自动分页的 PDF 用页面级分块。很多 PDF 是从 Word 或网页导出的分页完全是排版自动算的和内容无关。对这类 PDF 做页面级分块等于按随机位置切还不如老老实实递归拆分。坑三短文档也切。FAQ 文档、产品说明这类几百字的短文本切了反而丢信息。Firecrawl 的测试数据表明短文档直接整篇喂进去效果更好。坑四只测检索不测生成。前面语义分块的例子已经说明了检索指标好看不代表最终答案好。评估分块策略一定要跑端到端的 QA 评估。六、LangChain 递归拆分实操用 LangChain 实现推荐的默认策略码量很小from langchain.text_splitter import RecursiveCharacterTextSplitter splitter RecursiveCharacterTextSplitter( chunk_size512, chunk_overlap80, # 约 15% 重叠 separators[/n/n, /n, , ], length_functionlen, # 按字符计用 tiktoken 可按 token 计 ) chunks splitter.split_text(document_text)如果要按 token 数切更精确import tiktoken enc tiktoken.encoding_for_model(gpt-4) splitter RecursiveCharacterTextSplitter( chunk_size512, chunk_overlap80, separators[/n/n, /n, , ], length_functionlambda text: len(enc.encode(text)), )LlamaIndex 那边思路一样用SentenceSplitter配合chunk_size512和chunk_overlap80即可。七、总结分块策略的选择可能没有想象中那么玄学。四大基准测试给出的信号很一致递归字符拆分 512 tokens 10-20% 重叠作为默认起点跑赢了大多数更智能的替代方案语义分块检索强但生成弱根源是碎片化如果用一定设最小分块下限结构化文档金融报告、技术文档优先利用文档自身结构评估分块策略必须看端到端答案准确率不能只看检索指标别被语义“智能”代理式这些标签迷住了。分块的目的是给大模型提供信息密度足够高、边界足够合理的上下文。有时候最朴素的办法就是最管用的。当然把索引优化好可以一定程度的去解决碎片化的问题。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

海康工业相机SDK取图性能优化：从MV_CC_GetOneFrameTimeout到MV_CC_GetImageBuffer的实战避坑

海康工业相机SDK取图性能优化实战：从MV_CC_GetOneFrameTimeout到MV_CC_GetImageBuffer的深度解析在工业视觉系统的开发中，持续稳定的图像采集是保证检测精度和生产效率的关键。许多开发者在使用海康威视工业相机SDK时，往往会从最直观的MV_CC…...

2026/4/10 11:54:44 阅读更多 →

【读书笔记】《我们终将穿越风暴》

《我们终将穿越风暴》核心笔记积极心理学鼻祖马丁塞利格曼新作，英文名 Tomorrow Mind。核心命题：在AI驱动的剧变时代，每个人需要主动建设5种心理力量，以应对前所未有的不确定性。一、时代背景：我们为何需要心理建设&am…...

2026/4/10 11:54:40 阅读更多 →

Windows任务栏定制神器：7+ Taskbar Tweaker让你的桌面效率翻倍

Windows任务栏定制神器：7 Taskbar Tweaker让你的桌面效率翻倍【免费下载链接】7-Taskbar-Tweaker A Windows taskbar customization tool for Windows 7, Windows 8, and Windows 10 项目地址: https://gitcode.com/gh_mirrors/7t/7-Taskbar-Tweaker 你是否…...

2026/4/10 11:49:10 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/10 2:36:05 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/9 14:50:52 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/9 8:37:26 阅读更多 →