四种索引，一个系统，重新定义 AI 如何理解知识

张

张建站

2026/5/26 18:44:09

10分钟阅读

很多技术团队都走过同样的路先选一个大模型然后把公司里的文档、手册、报告塞进向量数据库再搭一个 RAG 问答系统。原型跑起来那天的感觉特别好问什么答什么反应快看起来像模像样。但系统真正投入业务之后问题就来了。一旦问题变得复杂系统就开始答非所问。有时候它给出的答案看起来头头是道但细查来源发现推理过程根本站不住脚。团队换过更贵的模型效果有改善但一到复杂问题就崩的现象始终没有根除。后来大家慢慢意识到问题可能不在模型本身而在于知识被喂给模型之前的那一步——检索。一、传统 RAG 正在把企业知识切碎RAG检索增强生成是目前企业用大模型的普遍做法。用户提问系统先从知识库找出相关文字连问题一起丢给大模型让模型根据这些文字回答。传统 RAG 依赖向量检索做法是把每篇文档切成文本块chunk比如每块 500 字把每个块转化成高维向量用户提问时把问题也转化成向量去库里找语义最相似的块对一般场景中的简单问答这个方法有效。但企业里的真实问题极少是这种点对点查询。因为企业知识的核心是关系。归因关系如设备故障手册里的故障现象和根本原因传导关系如产业链分析报告的上游价格和下游需求前后依赖关系如 SOP 流程文档的不同步骤层级关系如产品手册的零部件和子系统而传统 RAG 的第一步切文本块恰恰把这些关系切断了。“客户 A 为什么被判定为高风险”背后可能涉及用户 → 设备 → IP → 联系人 → 黑名单账户 → 历史交易 → 欺诈团伙这不是一个文本块能回答的问题。“某设备关联过哪些异常账号这些账号之间有没有共同联系人”这里需要的是关系推理、多跳遍历、结构化关联而不是语义相似。使用传统 RAG非常可能出现以下几大问题[1]。一关系缺失文档之间天然存在引用、衍生、对立等复杂关系向量数据库将文档切分为孤立的片段后数据的关联随之减弱。一个因果链条可能跨越三个段落被切成三个独立文本块后关系被破坏。一个产品特性可能分散在不同章节被切碎后模型再也看不到完整画像。二语义鸿沟语义相似度 ≠ 上下文相关性。举个相似但不相关的例子保温杯与保温大棚两者在转换成 Embedding 后的向量相似性很高因为它们在很大比例上共享“保温”这一语义特征。但在一些场景下想要了解保温杯却召回了保温大棚的信息。一个是喝水的一个是用于农业种植的完全不相关。RAG 在索引阶段即使设置了比较高置信度也很可能因为其相似性而得到不相关的信息。三全局推理乏力所有文档的核心观点是什么、政策中最重要的五点信息是什么。这类需要跨文档综合分析、提炼的全局性、社区级问题恰恰是向量检索的局限之处。二、企业知识天然就是一张图有没有一种方式能完整保留知识之间的关联答案是图数据库Graph Database。图数据库由节点和边构成。节点代表事物边代表关系每个节点和边都可以定义其属性。金融反欺诈的图建模事实上NebulaGraph 在微软之前就率先提出了 GraphRAG[2]而且微软在论文中也引用了我们的 GraphRAG 相关工作[3]。NebulaGraph 最先提出 GraphRAGNebulaGraph 是分布式开源图数据库主要面向大规模、高性能的应用场景支持千亿点、万亿边的超大规模数据集。目前在 DB-Engines 的图数据库排行榜上我们排名全球第二[4]。企业知识本质上就是一张巨大的图只是平时藏在文档、表格、邮件里没有被显式表达出来。产业研报变成图节点上游企业、中游厂商、下游需求、价格指标、产能数据边上游→中游供应关系、中游→下游需求关系、价格→产能影响关系设备维护手册变成图节点设备型号、故障现象、可能原因、检测方法、解决措施边现象→可能原因、原因→检测方法、方法→解决措施这些关系一旦被显式构建出来企业知识就不再是散乱的文本而是一个可以被系统遍历和推理的网络。这就是 GraphRAG 最简单的出发点。GraphRAG 不是简单地给 RAG 加一个图数据库。它的本质是抽取文档中的实体和它们之间的关系让大模型在关系网络上做路径探索和逻辑推理而不是在碎片里做相似匹配。三、GraphRAG从“找相似的”到“找相关的”图技术如何解决传统 RAG 的三大挑战一解决文档切分难题向量数据库的第一步是切文本块。图模型提供了完全不同的思路。文档、章节、段落可以作为具有丰富属性的节点存在并通过边明确表达其间的层级关系和引用关系。语义被结构性地保留下来不需要靠“切”来牺牲完整性。二重建上下文关联一个多级部门文档体系在向量数据库中这些文档被切成文本块后是“平权”的——一级和三级的内容混在一起无法保留层级、来源和引用关系。在图数据库中可以清晰地建模“发布”“引用”“归属”等关系。一篇三级报告引用了一级纲领的某条原则这个关系可以被显式记录下来。当用户问“这份报告的合规依据是什么”系统可以沿着引用边一路回溯到纲领原文形成可追溯、可解释的知识链条。三解锁复杂推理能力对于关联类问题。图数据库可以通过子图搜索、路径查询轻松找出两个节点之间的连接路径即使这条路径跨越了多个中间节点。对于总结推理类问题图数据库可以利用社区发现、中心性分析等图算法识别出知识网络中最关键、最聚合的信息群而不是像向量检索那样简单返回相似度最高的几个段落。四小结保留结构、重建关联、支持推理这三大核心能力正是 GraphRAG 区别于传统 RAG 的本质所在。并且结果更精确更重要的是每一步推理路径都可以完整展示给用户。四、Fusion GraphRAGNebulaGraph 的自我超越一Fusion Graph Index融合图索引技术不会止步。随着企业数据越来越复杂——PDF、Excel、PPT、图片、时序数据混在一起GraphRAG 遇到了新挑战如何在一个系统里同时处理文档结构、实体关系、语义相似性为此NebulaGraph 提出了原创的 Fusion GraphRAG 架构。Fusion GraphRAG 在知识图谱之上创新地增加了一层Fusion Graph Index融合图索引将非结构化文档解析为层次化目录树结构文档 → 章节 → 段落 → 文本块 → 图表。这种树状结构直接置于 LLM 的推理上下文中成为它可以主动遍历和推理的上下文内索引。也就是说Fusion GraphRAG 让文档的层次化结构本身即可作为可推理的索引让 LLM 根据问题意图动态决定“去哪里找”而非静态匹配“什么看起来像”给 LLM 装上了智能导航。这种能力的本质是让检索从静态匹配开始进入动态结构推理阶段。二四大索引能力因此在 Fusion GraphRAG 中实际上存在四类核心索引能力图索引负责实体关系与多跳路径推理向量索引负责语义相似召回全文索引负责关键词精准匹配融合图索引则负责文档结构导航与上下文推理。四种索引能力各司其职又动态协同。简单 FAQ 场景下向量检索可以快速返回结果复杂关系分析则更多依赖图路径推理专业术语与法规查询适合全文检索长文档、多章节、跨引用场景则由融合图索引主导结构导航。这一设计带来了显著的效率提升相比使用大模型抽取知识图谱索引构建速度提升约 10 倍在与微软 GraphRAG 的对比中索引阶段更是快了近 20 倍同时问答准确率更高。五、NebulaGraph AI 应用平台Fusion GraphRAG 是技术方案。企业需要的是可以直接用的产品。NebulaGraph AI 应用平台正是基于 Fusion GraphRAG、以 NebulaGraph 图数据库为引擎的完整产品。一核心能力零代码搭建智能助手通过可视化界面导入知识资产、配置检索策略不用写代码自然语言直接转换图查询语言业务人员能够自主构建算法无需依赖研发团队快速将业务规则落地图分析中多类型索引统一存储将向量、全文、图和融合图索引建立在一个平台内系统自动选择最优索引策略多模态解析PPT、Word、Excel、PDF、图片可快速解析。企业级权限隔离不同部门知识集相互隔离可按区域、产品线做二级隔离模型无关底层大模型可随时更换支持 GPT、通义、 DeepSeek、 GLM 等大模型。二生态完整我们构建了完整的 AI 应用开发生态Nebula AI Application SDK为开发者提供灵活调用的工具包。Nebula AI 应用平台零代码开箱即用的端到端平台用户只需选择知识库即可创建专属 AI 应用。三场景多元目前NebulaGraph AI 应用平台已在以下场景中通过实际业务检验。金融与数据分析财报分析与跨文档校对、历史交易文档查询对比、产业链AI研究如黑色系工业与智能制造故障树处理与排故引导、工业决策辅助法律合规与合规法律法规条款查询、合同合规性审核企业通用智能助手钉钉/企微机器人问答、网站 AI 搜索、业务流程入库与图查询、新零售企业内部智能助手员工培训/文档查找/销售数据分析/多国法务合规等。四正确率显著提高在开源 KG-RAG 评测集专门测试多跳推理问题平均需要2-4跳上召回率和回答正确率比 SOTA 高出 10% 以上。在金融类法律法规的真实企业场景中人工评分正确率达 95%。六、用户案例一中国船舶集团第七O八研究所故障树处理与引导排故1. 挑战客户有大量的非结构化文档文档内有故障树描述树状描述或者文字描述、引导排查故障的方法维修记录等且涉及高端船舶制造产品设计及排障流程复杂。2. 成效故障平均排查时间大幅缩短。同时每次成功排故后工程师的查询路径被系统记录下来数千个故障场景的推理路径沉淀为企业可复用的数字资产。新工程师遇到类似问题时系统可以直接推荐历史成功路径。这是行业首个船舶生成式人工智能驱动的实际应用场景通过实现图驱动的检索增强智能体优化了信息检索的准确性和速度提高了系统的灵活性和适应性。二某期货企业产业链 AI 研究助手1. 挑战某期货企业的研究员每天要跟踪黑色系产业链。上游焦煤、焦炭、铁矿石的价格和库存影响中游钢厂的产能决策再传导到下游建筑、制造、出口的需求。研究员同时盯着十几个数据源外加大量历史研报和实时资讯导致一份日报需要耗时 4-6h。2. 成效显著减少人工分析时间单份日评制作时间降低至 30min 以内自动化生成专业、及时、准确的黑色系期货日评报告。七、重新定义 AI 如何理解知识回到开头的困惑为什么接了模型、建了向量库复杂问题还是答不好答案已经清晰了。你给大模型看的是被切碎的、断了关系的文字碎片却指望它能理解那些依赖复杂关系才能回答的问题。传统 RAG、GraphRAG 与 Fusion GraphRAG 代表了检索增强生成技术从简单语义匹配到全局结构理解再到动态推理导航的演进路径。在这条路上NebulaGraph 从未缺席。从率先提出 GraphRAG 方案到推出原创的 Fusion GraphRAG 架构再到今天的 NebulaGraph AI 应用平台我们一直在做同一件事重新定义 AI 如何理解知识。

str.charAt(i)和c.charValue()区分（c是Character (对象)）

虽然它们最终都指向一个“字符”，但在 Java 程序开发中，它们的使用场景和对象来源完全不同。1. str.charAt(i)：用于“读取字符串”来源：这是 String 类提供的方法。用途：当你手中有一个 String 对象（字符串…...

2026/5/26 18:43:06 阅读更多 →

OCLP-Mod焕新方案：让老旧Mac设备完整解决系统升级难题

OCLP-Mod焕新方案：让老旧Mac设备完整解决系统升级难题【免费下载链接】OCLP-Mod A mod version for OCLP,with more interesting features. 项目地址: https://gitcode.com/gh_mirrors/oc/OCLP-Mod OCLP-Mod是一款专为老旧Mac设备设计的开源系统升级解决方案…...

2026/5/26 18:43:02 阅读更多 →

RNA二级结构预测：从热力学模型到深度学习与混合策略

1. 项目概述：当机器学习遇见RNA折叠RNA二级结构预测，说白了，就是给你一串由A、U、C、G四个字母组成的RNA序列，让你猜猜它会在空间里怎么“对折”自己，哪些碱基会和哪些碱基手拉手（形成碱基对）。…...

2026/5/26 18:42:35 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →