全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210022901.5 (22)申请日 2022.01.10 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 魏旭 胡彪 刘方然 徐常亮  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 代理人 田金霞 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 知识图谱中重复实体的去重方法 (57)摘要 本申请涉及一种知识图谱中重复实体的去 重方法, 通过利用一个训练用知识图谱中实体的 实体信息构建多个正和/或反例作为预训练模型 调整的训练数据, 节省标注成本, 而且将实体去 重目标转化为文本二分类任务, 大大降低了实体 去重的难度, 不用引入量化计算的指标, 且正反 例数量足够多的条件下, 调整后的预训练模型作 为实体去重模型, 它的去重准确率不会降低, 反 而相对传统去重方法会 有显著的提高。 权利要求书3页 说明书8页 附图1页 CN 114386418 A 2022.04.22 CN 114386418 A 1.一种知识图谱中重复实体的去重方法, 其特 征在于, 所述方法包括: 获取训练用知识图谱; 提取所述训练用知识图谱中一个实体的实体信息; 依据所述实体的实体信息构建多个正例和/或多个反例; 返回所述提取所述训练用知识图谱中一个实体的实体信 息的步骤, 直至所述训练用知 识图谱中预设个数的实体中每一个实体的多个正例和/或多个反例均被构建完毕; 将所有正例和反例作为训练数据输入预训练模型, 对所述预训练模型进行训练, 以将 预训练模型调整为实体去重模型; 获取待去重知识图谱, 从所述待 去重知识图谱中选取多个同名称的待 去重实体; 将所述多个同名称的待去重实体导入所述实体去重模型, 运行所述实体去重模型对所 述待去重知识图谱进行实体去重 。 2.根据权利要求1所述的知识图谱中重复实体的去重方法, 其特征在于, 在所述提取所 述训练用知识图谱中一个实体的实体信息之后, 所述方法还 包括: 将实体信息中的结构化数据转 化为非结构化数据。 3.根据权利要求2所述的知识图谱中重复实体的去重方法, 其特征在于, 所述依据 所述 实体的实体信息构建多个正例和/或多个反例包括: 将所述实体的实体信 息拆分为多个部分信 息, 每一个部分信 息对应所述实体的一种属 性; 选取多个不同的部分信息组成不同的正例。 4.根据权利要求2所述的知识图谱中重复实体的去重方法, 其特征在于, 所述依据 所述 实体的实体信息构建多个正例和/或多个反例包括: 将所述实体的实体信 息拆分为多个部分信 息, 每一个部分信 息对应所述实体的一种属 性; 选取预设数量的部分信息, 将所述预设数量的部分信息依照不同的顺序排列, 以组成 不同的正例。 5.根据权利要求2所述的知识图谱中重复实体的去重方法, 其特征在于, 所述依据 所述 实体的实体信息构建多个正例和/或多个反例包括: 将所述实体的实体信 息拆分为多个部分信 息, 每一个部分信 息对应所述实体的一种属 性; 从服务器调取多个实体模板, 将所有部分信息与不同的实体模板对齐, 输出不同的正 例。 6.根据权利要求2所述的知识图谱中重复实体的去重方法, 其特征在于, 所述依据 所述 实体的实体信息构建多个正例和/或多个反例包括: 将所述实体的实体信 息拆分为多个部分信 息, 每一个部分信 息对应所述实体的一种属 性; 从服务器中调取 所述实体的至少一个必要属性标签; 依据所述实体的所有必要属性标签从服务器中搜寻每一个必要属性标签对应的多个 可替换词条; 依据所述实体的一个或多个必要属性标签, 将与必要属性标签对应的部分信 息替换为权 利 要 求 书 1/3 页 2 CN 114386418 A 2一个可替换词条, 生成一个反例; 返回所述依据 所述实体的一个或多个必要属性标签, 将与必要属性标签对应的部分信 息替换为可替换词条, 生成一个正例的步骤, 以生成多个反例, 每一个反例的可替换词条不 同。 7.根据权利要求2所述的知识图谱中重复实体的去重方法, 其特征在于, 所述依据 所述 实体的实体信息构建多个正例和/或多个反例包括: 将所述实体作为第一实体, 将所述第一实体的实体信息拆分为多个第一部分信息, 每 一个第一部分信息对应所述第一实体的一种属性; 选取所述待去重知识图谱中另一个实体作为第二实体, 提取所述第二实体的实体信 息, 将所述第二实体的实体信息拆分为多个第二部分信息, 每一个第二部分信息对应所述 第二实体的一种属性; 获取与名称属性对应的第一部分信息, 以及获取与名称属性对应的第二部分信息, 将 与名称属性对应的第一部分信息和与名称属性对应的第二部分信息进 行调换, 生成两个反 例。 8.根据权利要求3 ‑7中任意一项所述的知识图谱中重复实体的去重方法, 其特征在于, 所述将所述多个同名称的待去重实体导入所述实体去重模型, 运行所述 实体去重模型对所 述待去重知识图谱进行实体去重, 包括: 创建同名称实体集 合; 选取一个名称; 从所述待去重知识图谱搜寻所有具有该名称的实体均作为待去重实体, 将所有待去重 实体纳入所述同名称实体集 合; 选取所述同名称实体集 合中的一个待 去重实体作为主比较实体; 选取所述同名称 实体集合中的另一个待去重实体作为副比较实体, 将所述主比较实体 和副比较实体导入实体去重模型; 运行所述实体去重模型, 利用所述实体去重模型对所述主比较实体和副比较实体进行 是否为同一实体的比较判定; 若所述主比较实体和副比较实体不为同一实体, 则返回所述选取所述同名称 实体集合 中的另一个待去重实体作为副比较实体的步骤, 直至所述主比较实体和所述同名称实体集 合中的其他所有待去重实体均进 行过比较判定, 返回所述选取同名称实体集合中的一个待 去重实体作为主比较实体的步骤, 直至所述同名称实体集合中的每两个待去重实体均进 行 过一次是否为同一实体的比较判定 。 9.根据权利要求8所述的知识图谱中重复实体的去重方法, 其特征在于, 在所述运行所 述实体去重模型, 利用所述 实体去重模型对所述主比较实体和 副比较实体进 行是否为同一 实体的比较判定之后, 还 包括: 若所述主比较实体和副比较实体为同一实体, 则将所述主比较实体和副比较实体进行 实体融合, 生成一个融合后的实体; 在实体融合后, 返回所述选取同名称 实体集合中的另一个待去重实体作为副比较实体 的步骤。 10.根据权利要求9所述的知识图谱中重复实体的去重方法, 其特征在于, 所述将所述权 利 要 求 书 2/3 页 3 CN 114386418 A 3

.PDF文档 专利 知识图谱中重复实体的去重方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱中重复实体的去重方法 第 1 页 专利 知识图谱中重复实体的去重方法 第 2 页 专利 知识图谱中重复实体的去重方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。