(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210964519.6 (22)申请日 2022.08.11 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 黄翰 朱浩锋 曾庆醒 郝志峰  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 黄月莹 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/295(2020.01) (54)发明名称 一种基于实体合并的知识图谱融合方法 (57)摘要 本发明公开了一种基于实体合并的知识图 谱融合方法, 包括以下步骤: 首先获取要进行融 合的两个或多个知识图谱的数据, 然后提取实体 的所有属性, 计算属性的词嵌入向量并将其输入 到循环神经网络中, 获取其最后的隐藏层输出, 从而得到统一编码的实体属性 嵌入向量, 最后使 用余弦相似度计算两个图谱中实体属性嵌入向 量的相似性, 获取超 过设定阈值且相似度最高的 两个不同图谱的实体进行融合, 得到融合后的知 识图谱。 本发明基于循环神经网络, 将实体的属 性视作上下文, 将两个图谱中的实体嵌入向量映 射到同一个特征空间, 且嵌入向量可以包含实体 的所有属性信息和相同的维度, 解决细分领域知 识图谱融合问题, 速度快且准确率高。 权利要求书2页 说明书8页 附图3页 CN 115438188 A 2022.12.06 CN 115438188 A 1.一种基于实体合并的知识图谱融合方法, 其特 征在于, 包括以下步骤: (a)对于若干个 需要合并的知识图谱, 获取其结构化的实体和属性, 计算每个属性的词 嵌入向量; (b)将单个实体生成的所有属性词嵌入向量拼接成一个句子嵌入向量输入到循环神经 网络中, 使用循环神经网络最后一层隐藏层的输出作为该实体的属 性嵌入向量, 从而将两 个图谱中的属性嵌入向量映射到同一个特征空间, 所述属性嵌入向量包括实体的所有属性 信息和相同的维度; (c)对图谱间的实体, 使用余弦相似度算法计算属性嵌入向量的相似度, 将超过设定阈 值且相似度最高的两个实体进行合并, 得到融合的知识图谱。 2.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 对于需要融合 的若干个知识图谱, 定义实体集合为 其中 表示知识 图谱中的第ti个实体, Ti表示第i个知识图谱中的实体数量, I表示需要融合的知识图谱数 量; 定义实体属性集合为 其中 为第i个图谱中第t个实体的 第nt个属性值, Nt为实体的属性数量, 不同实体属性数量与属性 顺序不同。 3.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 对于数值型属 性, 通过正则表达式提取数值型属性的数值大小和单位, 对于数值, 构造一个与使用的词嵌 入生成算法输出的词向量维度一致的零向量v0, 并将该数值与向量的最后一维相加从而得 到该数值的词嵌入向量; 对于单位名称, 使用词嵌入生成算法生成词嵌入向量。 4.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 步骤(b)中对 于实体et的第m个属性am, t, 通过步骤(a ‑1)和步骤(a ‑2)生成属性的若干个词嵌入向量 其中 为第m个属性的第nm个词生成的词嵌入向量; Nm 为第m个属性的词语数量; M为属性数量; 将所有属性的词嵌入向量 拼接成句子嵌入向量: 其中, 属性间加入一个相同维度的零向量v0将不同属性的若干个词嵌入向量 分割开, 通 过将句子嵌入向量输入到循环神经网络中, 获取其最后一层隐藏层的输出作为该实体嵌入 向量evt。 5.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 循环神经网络 的训练方法为通过人工标注的方法获取训练数据集中多个图谱中的实体, 将属于同一事物 的实体对作为正样本, 属于不同事物的实体对作为负样本; 将正负样本作为训练集对循环 神经网络进行训练。 6.根据权利要求5所述基于实体合并的知识图谱融合方法, 其特征在于: 训练集使用知 识图谱训练集, 或通过爬取 数据的方式并通过实体抽取和关系抽取的方法生成。 7.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 对于需要进行 训练的循环神经网络, 训练的损失函数为:权 利 要 求 书 1/2 页 2 CN 115438188 A 2pk=cos_sim(f(ei), f(ej)) 其中, N表示样本总数; yk表示训练集中第k个样本的标签, 正样本为1, 负样本为0; pk表 示第k个样本实体对(ei, ej)的实体嵌入向量的相似度; c os_sim表示余弦相似度计 算函数; f (ei)表示实体ei经过循环神经网络f后输出 的实体嵌入向量, f(ej)表示实体ej经过循环神 经网络f后输出的向量。 8.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 对于需要融合 的两个图谱, 选择一个图谱A的一个实体, 与另一个图谱B的所有实体计算实体属性嵌入向 量的相似度, 当相似度超过设定阈值Q且为所有实体中相似度最高的两个实体时, 将这两个 实体合并为 新图谱C的一个实体; 通过循环所有实体完成两个图谱的合并, 得到新图谱C 。 9.根据权利要求1所述基于实体合并的知识图谱融合方法, 其特征在于: 对于多个知识 图谱, 采用两两合并的方式, 先 随机选择两个图谱, 进行步骤(a) ‑步骤(c)合并为一个图谱 后再与未合并的图谱进行合并, 从而将多个知识图谱融合 为一个知识图谱。 10.根据权利要求1~9任一项所述基于实体合并的知识图谱融合方法, 其特征在于: 对 于实体的数值型属性, 通过正则表达式获取其数值大小和单位, 然后对于数值, 将其与零向 量相加作为词嵌入向量; 对于单位, 使用通用词嵌入生成算法生成词嵌入向量; 对于实体的 文本型属性, 使用通用词嵌入生成算法生成词嵌入向量。权 利 要 求 书 2/2 页 3 CN 115438188 A 3

.PDF文档 专利 一种基于实体合并的知识图谱融合方法

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于实体合并的知识图谱融合方法 第 1 页 专利 一种基于实体合并的知识图谱融合方法 第 2 页 专利 一种基于实体合并的知识图谱融合方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:37上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。