neo4j节点多重关系时语义重复

张

张建站

2026/4/11 21:12:51

10分钟阅读

示例“由”与“由_研发”重复考虑到LLM查重每一次都要调用新的LLM采用向量库查重prompt优化新增规则4. 同一语义只能用一个词不能出现训练于和在...中训练这种重复第一阶段纯向量去重失败最直觉的方案是用 embedding 模型计算相似度超过阈值就跳过scores cosine_similarity([new_vec], exist_vecs)[0] if scores.max() 0.9: continue # 跳过重复问题mxbai-embed-large对中文短句效果差由vs由_研发这种短词相似度计算不稳定阈值难以调整0.9太严0.7又会误杀第二阶段动态Schema约束核心思路不在存入时去重而是在提取时就输出标准化的词。每次提取时把已有图谱的实体名和关系词表传给LLM强制复用图谱越用越标准从源头消灭歧义。第三阶段向量召回 LLM标准化兜底仅靠Prompt约束还不够需要一道兜底机制。但直接把整个图谱塞给LLM判断图谱大了会超出context window。方案向量先缩小范围LLM只看候选项def normalize_by_llm(new_data): 向量召回候选后LLM做最终标准化节点关系一起处理 # 为每个新节点找候选 node_candidates {} for node in new_data.get(nodes, []): similar get_top_k_similar(node, _node_cache, top_k5) if similar: node_candidates[node] [name for name, _ in similar] # 为每个新关系找候选 rel_candidates {} for edge in new_data.get(edges, []): if isinstance(edge, list) and len(edge) 3: rel edge[1] similar get_top_k_similar(rel, _rel_cache, top_k5) if similar: rel_candidates[rel] [name for name, _ in similar] # 没有候选说明是全新图谱直接返回 if not node_candidates and not rel_candidates: return new_data prompt f 你是知识图谱专家对新数据进行标准化处理。新数据{json.dumps(new_data, ensure_asciiFalse)} 节点候选映射如果新节点与候选是同一实体用候选名替换 {json.dumps(node_candidates, ensure_asciiFalse)} 关系候选映射如果新关系与候选语义相同用候选名替换 {json.dumps(rel_candidates, ensure_asciiFalse)} 规则 1. 只有确定是同一实体/语义才替换不确定保留原名 2. 关系名不超过4个字 3. 只输出JSON无任何解释格式 {{ nodes: [实体A, 实体B], edges: [[实体A, 关系, 实体B]] }} response llm.invoke(prompt) try: match re.search(r\{.*\}, response, re.DOTALL) if not match: return new_data return json.loads(match.group()) except: return new_datadef get_top_k_similar(query, candidates_cache, top_k5): if not candidates_cache: return [] query_vec embed_model.embed_query(query) names list(candidates_cache.keys()) vecs list(candidates_cache.values()) scores cosine_similarity([query_vec], vecs)[0] top_indices np.argsort(scores)[::-1][:top_k] # 只返回相似度0.5的过滤掉不相关的候选 return [(names[i], scores[i]) for i in top_indices if scores[i] 0.5]第四阶段内存缓存加速每次请求都从Neo4j加载所有节点计算向量太慢用内存缓存解决# 内存缓存 _node_cache {} # {name: vector} _rel_cache {} # {rel: vector} def load_cache_from_neo4j(session): 首次运行时从neo4j加载已有数据到缓存 if not _node_cache: existing_nodes [r[name] for r in session.run(MATCH (e:Entity) RETURN e.name AS name)] if existing_nodes: print(f[缓存] 加载 {len(existing_nodes)} 个节点向量...) vecs embed_model.embed_documents(existing_nodes) _node_cache.update(dict(zip(existing_nodes, vecs))) if not _rel_cache: existing_rels list(set( r[rel] for r in session.run(MATCH ()-[r]-() RETURN type(r) AS rel) )) if existing_rels: print(f[缓存] 加载 {len(existing_rels)} 个关系向量...) vecs embed_model.embed_documents(existing_rels) _rel_cache.update(dict(zip(existing_rels, vecs)))新节点/关系存入后立即更新缓存保持同步。

Oracle 并发锁

问题：为什么我们会收到错误“TT6002：锁请求被拒绝，因死锁而被拒绝”，而我们的SQL主要是对唯一行进行插入和更新？ 解决方案回答： 1. 当未提交的值被更新时，优化器会在执行阶段移除该旧值&…...

2026/4/11 21:08:19 阅读更多 →

去除元素的redonly属性

在 Web 自动化测试中，如果页面元素带有 readonly 属性导致无法输入，可以使用 JavaScript 移除该属性，以 Selenium Python 为例：from selenium import webdriver from selenium.webdriver.common.by import Bydriver webdriver.C…...

2026/4/11 21:07:31 阅读更多 →

Flowable7.x实战指南（二）：Vue3集成bpmn-js属性面板与Camunda扩展

1. 环境准备与依赖安装在Vue3项目中集成bpmn-js属性面板前，需要特别注意依赖版本的兼容性。我实测发现bpmn-js15.0.0与properties-panel5.20.0的组合最稳定，这个搭配在2024年第三季度经过充分验证。以下是具体操作步骤： 首先通过yarn安装核心…...

2026/4/11 21:05:31 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/10 2:36:05 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/11 16:41:17 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/9 8:37:26 阅读更多 →