KG基础模型来了!把小型图结构变成结构 Token
这篇论文想解决什么大语言模型之所以能在不同任务上表现出很强的迁移能力一个重要原因是文本可以被切分成 token。一句话可以拆成词、子词或符号图像可以被看成像素或图像块。这些 token 构成了模型能够反复使用的“基础单位”。但知识图谱不一样。知识图谱中的实体和关系虽然也是离散符号但它们并不排列在一个固定网格上。一个知识图谱可能是社交关系一个可能是学术网络一个可能是公司组织结构。它们的实体名称、关系名称完全不同局部连接方式也千差万别。问题就出现了如果知识图谱没有像文本 token 那样统一的基础单位知识图谱基础模型该如何跨图谱迁移Amouzouvi 等作者给出的答案是把小型图结构 graphlets 当作知识图谱中的“结构 token”。也就是说模型不再只依赖实体名或关系名而是学习不同知识图谱中反复出现的局部结构模式。核心直觉名字不同结构相同作者在论文中给出了一个很清楚的例子。在家庭知识图谱中可能存在这样的关系son_ofwife_ofgrand_father_of在公司知识图谱中可能出现mentor_ofcofounder_withgrandvisor_of在学术知识图谱中又可能出现student_ofcoauthor_ofgrandvisor_of这些关系的名称并不相同但它们在图中的连接形态可能高度相似。这意味着模型真正需要学习的不一定是“某个具体关系叫什么名字”而是某些关系如何共同组成一个可迁移的结构模式。这正是知识图谱基础模型的关键思想不要只记住标签而要识别结构不变量。作者认为graphlet 就可以扮演这种结构不变量的角色。Graphlet 是什么简单来说graphlet 是知识图谱中的小型连通子图。它可以是两条边组成的路径三条边组成的路径一个闭合环一个以某个实体为中心的星形结构一组关系共同形成的局部拓扑模式。作者将这些 graphlets 视为结构词汇表中的基本单位。如果把知识图谱类比成语言那么类比对象语言模型知识图谱基础模型基础单位tokengraphlet组合对象句子关系子图学习目标语言模式结构模式迁移依据词汇复用图结构复用这篇论文的核心创新并不是提出一个完全新的神经网络架构而是重新设计了知识图谱基础模型的“结构词汇表”。也就是说作者关注的是模型到底应该用什么样的结构单位来理解知识图谱Ultra把图模式变成结构词汇作者提出的方法叫Ultra。Ultra 可以看作是在 Ultra 框架上的扩展。原始 Ultra 主要依赖长度为 2 的路径来构造关系图而 Ultra 进一步引入了更丰富的 graphlet 词汇。Ultra 的做法可以概括为四点第一使用 graphlet 构造结构词汇表。作者不只关注两个关系是否共现还关注它们是以开放路径、闭合路径、三跳路径还是星形结构的方式共现。第二区分开放路径和闭合路径。这是论文非常重要的一点。过去一些方法会把相似长度的路径混在一起看但作者认为开放路径和闭合路径表达的语义不同应该被区分。第三把高阶 graphlet 转换为位置二元关系。Motif 等方法会用 n-ary relation 或超图来表达多个关系之间的高阶结构。作者则使用 positional binary order把复杂 graphlet 拆成位置相关的二元关系。这让关系图仍然保持为普通图而不是复杂的超图。第四使用 SPARQL 查询进行结构抽取。作者没有继续依赖稀疏矩阵乘法来构造关系图而是为结构词汇表中的每个 graphlet 设计 SPARQL ASK 查询。这样可以更灵活地抽取开放路径、闭合路径和其他复杂结构。一句话总结Ultra 的关键不是换一个更大的模型而是给知识图谱基础模型换一套更细、更稳、更可迁移的结构词汇。为什么要区分开放路径和闭合路径开放路径和闭合路径看起来只差一个“是否回到原点”但在图结构中它们表达的关系模式完全不同。例如开放路径A → B → C这种结构强调的是链式传播。闭合路径A → B → C → A这种结构强调的是循环、互证或封闭关系。在知识图谱中闭合结构往往非常重要。例如家庭关系、合作关系、学术师承关系、公司组织关系中都可能存在强烈的环状结构。如果模型无法区分开放路径和闭合路径就可能把不同语义的结构混为一谈。作者认为这正是已有知识图谱基础模型的一个不足Ultra 主要依赖长度为 2 的路径Motif 引入了更高阶 motif但没有充分区分开放路径和闭合路径Ultra 则明确把开放路径和闭合路径都纳入结构词汇表。因此Ultra 能捕捉到更细粒度的关系模式。Ultra 和 Motif 有什么不同这篇论文的一个重要对比对象是 Motif。Motif 使用 n-ary motifs 构造关系超图。这种方式能够表达多个关系之间的共同出现但也带来两个问题其一计算结构更复杂。超图中的消息传递比普通关系图更复杂邻域计算也更重。其二某些情况下表达能力并不占优。作者在理论分析中指出Ultra 通过位置二元关系保留了关键结构信息同时避免了超图的复杂性。这里的关键思想是一个三元 motif 可以被看成若干位置二元结构的组合Ultra 用更简单的关系图表达了足够强的结构信息。作者还通过定理说明如果 Ultra 的关系图中两个关系之间不存在对应边那么 Motif 中对应的超边也不会存在。换句话说Ultra 的二元结构能够覆盖 Motif 中一部分关键高阶信息并且更稳健。实验结果说明了什么作者在零样本链接预测任务上评估 Ultra。实验设置包括预训练图谱CoDEx Medium、FB15k237、WN18RR评估任务归纳实体预测、图迁移、传导式链接预测主结果覆盖 51 个知识图谱评价指标MRR、Hits10对比模型Ultra、Motif、不同结构词汇版本的 Ultra。作者设计了多个 Ultra 变体模型变体使用的结构词汇Ultra[V₂⁻]只使用开放 2 路径Ultra[U₂]使用 2 路径但不区分开放/闭合Ultra[V₂]使用开放与闭合 2 路径Ultra[V₂⁺]在 V₂ 基础上加入 N-M 拓扑结构Ultra[V₃⁻]使用开放 3 路径Ultra[V₃]使用开放与闭合 3 路径Ultra[V₃⁺]在 V₃ 基础上加入 N-M 拓扑结构最关键的结果出现在表 1。Ultra[V₃] 在 51 个知识图谱平均结果上取得了最好的总体表现Total Avg. MRR0.387Total Avg. H100.549作为对比UltraMRR 0.374H10 0.529MotifMRR 0.378H10 0.537Ultra[V₂]MRR 0.384H10 0.544这说明两点第一区分开放路径和闭合路径确实有帮助。Ultra[V₂] 只使用 2 路径结构但因为显式区分开放和闭合路径已经超过了 Ultra 和 Motif。第二扩大路径型结构词汇通常能继续提升效果。Ultra[V₃] 比 Ultra[V₂] 更强说明 3 路径结构提供了更丰富的可迁移模式。更大的词汇一定更好吗答案并不是。这篇论文有一个很有意思的发现扩大路径型结构词汇通常有帮助但加入拓扑型 graphlet 不一定继续提升性能。例如Ultra[V₃] 的总体 MRR 是 0.387Ultra[V₃⁺] 加入 N-M 拓扑结构后总体 MRR 变为 0.382Ultra[V₂] 的总体 MRR 是 0.384Ultra[V₂⁺] 加入 N-M 拓扑结构后总体 MRR 变为 0.372。这说明结构词汇表并不是越大越好。一个更大的词汇表可能带来更多模式但也可能引入噪声尤其是在不同知识图谱结构差异较大时。作者因此指出路径型结构词汇的扩展比较稳定而拓扑型结构词汇如何选择仍然需要进一步研究。这对知识图谱基础模型很重要结构词汇表不是简单堆叠而是需要精心设计。稀疏图谱上也有效吗知识图谱常常是稀疏的。在稀疏图谱中关系和实体连接较少模型更难捕捉可靠模式。作者专门比较了 Ultra、Motif 和 Ultra 在 5 个稀疏传导式数据集上的表现包括WDsingerNELL23kFB15k237(10)FB15k237(20)FB15k237(50)表 2 显示Ultra 在这些稀疏数据集上整体表现更强。例如在 NELL23k 上Ultra[V₃] 的 MRR 达到 0.250高于 Ultra 的 0.239 和 Motif 的 0.220在 FB15k237(20) 上Ultra[V₂] 的 MRR 达到 0.274高于 Ultra 的 0.272 和 Motif 的 0.259在 FB15k237(50) 上Ultra[V₂] 的 MRR 达到 0.329高于 Ultra 的 0.324 和 Motif 的 0.312。这说明Ultra 的结构词汇不仅在平均结果上有效在稀疏场景中也具有一定优势。计算效率也是一个亮点除了效果提升作者还强调了 Ultra 在关系图构造上的效率优势。传统方法常用稀疏矩阵乘法来计算关系之间的结构连接。但当结构词汇表变复杂尤其是要区分开放路径和闭合路径时矩阵方法会变得昂贵。Ultra 使用 SPARQL ASK 查询来抽取 graphlet。这样做有三个好处更容易表达不同类型的 graphlet更容易区分开放路径和闭合路径不需要依赖大规模 GPU 显存来完成关系图构造。表 17 展示了 Query-based 方法和 SPMM 方法的运行时间对比。例如WN18RR 上Query-based 方法约 8 秒SPMM 约 10 分 24 秒FB15k237 上Query-based 方法约 1 分 3 秒SPMM 约 1 小时 52 分 43 秒CoDEx Medium 上Query-based 方法约 30 秒SPMM 约 1 小时 7 分 52 秒。这说明Ultra 不只是性能更好也让复杂结构词汇的构建更现实。结语知识图谱也需要自己的“token”这篇论文最值得关注的地方是它把知识图谱基础模型的问题重新表述为一个“结构词汇表”问题。语言模型依赖 token。视觉模型依赖像素或 patch。知识图谱基础模型则需要一种属于图结构的基础单位。作者提出graphlets 可以成为这种结构单位。Ultra 的价值在于它让知识图谱模型不再只看实体名和关系名而是学习不同图谱中可复用的结构模式。从实验结果看开放路径与闭合路径的区分非常关键从方法设计看位置二元关系让模型避免了超图复杂性从计算实现看SPARQL 查询让结构抽取更加灵活高效。当然这篇论文也留下了进一步研究空间。例如拓扑型 graphlet 并不总是带来提升说明结构词汇表的扩展仍然需要更细致的选择机制。未来如果能够自动发现最有效的 graphlet 组合知识图谱基础模型可能会拥有更强的跨领域迁移能力。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】