全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111646665.6 (22)申请日 2021.12.3 0 (71)申请人 杭州碧湾信息技 术有限公司 地址 310051 浙江省杭州市滨江区江陵南 路312号B幢1901室 (72)发明人 季白杨  (74)专利代理 机构 浙江千克知识产权代理有限 公司 33246 专利代理师 赵芳 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种二维重叠大样本数据源的细粒度知识 图谱融合方法 (57)摘要 本发明公开了一种二维重叠大样本数据源 的细粒度知识图谱融合方法, 包括: S1.对知识图 谱相对应的属性三元组进行迭代式的实体对齐, 得到对其的实体对集合, 对实体对进行相似度的 多层次分级, 得到高置信度的实体对; 将得到的 高置信度实体对作为嵌入式模型的训练数据集, 利用关系三元组做嵌入式模型的结构化嵌入, 得 到实体和关系的高维空间向量表 示, 对属性和关 系设置权重, 得到属性和关系最终的相似度; S2. 根据得到的相似度对实体属性进行筛选, 得到属 性最终的相似度; S3.基于机器学习训练得到的 分类器模型、 原子表达式算法自动完成高置信度 实体对和属性的知识特征融合; S4.基于知识特 征融合, 完成双向监 督交互式数据融合。 权利要求书3页 说明书11页 附图1页 CN 114547323 A 2022.05.27 CN 114547323 A 1.一种二维重 叠大样本数据源的细粒度知识图谱融合方法, 其特 征在于, 包括: S1.对知识图谱相对应的属性三元组进行迭代式的实体对齐, 得到对其的实体对集合, 对实体对进行相似度的多层次分级, 得到高置信度的实体对; 将得到的高置信度实体对作 为嵌入式模型 的训练数据集, 利用关系三元组做嵌入式模型 的结构化嵌入, 得到实体和关 系的高维空间向量表示, 对属性和关系设置 权重, 得到属性和关系最终的相似度; S2.根据得到的相似度对实体属性进行筛 选, 得到属性 最终的相似度; S3.基于机器学习训练得到的分类器模型、 原子表达式算法自动完成高置信度实体对 和属性的知识特 征融合; S4.基于知识特 征融合, 完成双向监 督交互式数据融合。 2.根据权利要求1所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S1具体包括: S11.对属性三元组基于迭代模型进行实体对齐, 基于属性和属性相对应的属性值进行 实体匹配操作, 得到实体对集合, 并利用实体对集合进行属 性相似度匹配操作得到属 性对 集合, 得到高置信度的实体对; S12.将得到的高置信度实体对作为嵌入模型的训练数据集, 利用关系三元组做结构化 嵌入, 对待融合知识图谱进行全局结构的刻画和建模, 最终得到实体和关系的高维空间向 量表示; S13.基于不同权重对属性对齐和关系对齐进行融合, 得到关系与属性两个维度的对齐 结果, 并采取线性结合的方式得到属性和关系 总的相似度。 3.根据权利要求2所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S2具体包括: S21.计算属性之间的相似度; S22.计算相邻实体之间的相似度; S23.计算属性标签集 合的相似度; S24.筛选知识图谱中实体属性的上层概念路径, 形成路径向量, 并计算属性最终的相 似度。 4.根据权利要求3所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S3具体包括: S31.利用机器学习训练得到分类 器模型, 并利用二分类方法处 理实体融合; S32.利用原子表达式筛 选属性; S33.将原子表达式进行组合使用, 完成高置信度实体对和 属性的知识特 征融合。 5.根据权利要求4所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S4具体包括: S41.基于TransE算法和PtransE算法对三元组的向量进行嵌入, 完成单个知识图谱的 训练; S42.将经过处理的实体和关系的高维空间向量重新映射在低纬空间之中, 并在映射过 程中分别形成对实体和关系向量的约束, 完成双向监 督交互式数据融合。 6.根据权利要求2所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S11具体包括:权 利 要 求 书 1/3 页 2 CN 114547323 A 2S111.对属性对齐时的公共属性设置统一权 重, 并计算实体之间的相似度, 表示 为: 其中, SimA(e1, e2)表示实体e1与实体e2之间的相似度; 表示实体 e1在两个实体共有的 第k个属性; 表示实体e2在两个实体共有的第 k个属性; n表示两实体公有属性的总个数; Simv表示的是两个属性 值 和 之间相似度, 表示 为: 其中, levenshteinSim表示基于Levenshtein距离计算的相似度; lcsSim表示通过字符 串公共的最长 子串进行相似度计算; S112.根据对齐的实体对查找潜在对齐的属性对, 表示 为: 其中, 表示属性对 的相似度; 表示实体有 限集合中元素个数; 表示属性 值间相似度。 7.根据权利要求6所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S13中得到属性和关系 总的相似度, 表示 为: Sim(Ei, Ej)= λ ×simR(ei,ej)+(1 ‑λ )×simA(ei,ej) 其中, simR表示基于关系三元组得到相似度; simA表示利用属性三元组得到的相似度; λ表示权 重; sim(Ei, Ej)表示总的相似度。 8.根据权利要求3所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S21中计算属性之间的相似度, 表示 为: Simproperty=COS(Nameproperty1Nameproperty2) 其中Simproperty表示两个属性pr operty1和pr operty2在属性名层面相似性; Nameproperty1 与Nameproperty2分别表示高维空间向量表示。 9.根据权利要求8所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S22中计算相邻实体之间的相似度, 表示 为: Simentity=|entityL ist1∩entityL ist2|/|entityL ist1∪entityL ist2| 其中Simentity表示两个相邻实体相似度; entityList1与entityList2表示属性 property1与属性proper ty2相邻实体的有限集 合。 10.根据权利要求9所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法, 其 特征在于, 所述 步骤S23中计算属性标签集 合的相似度, 表示 为: Simlabel=COS(labelproperty1, labelproperty2) 其中, Simlabel表示属性proper ty的有限标签相似度; 所述步骤S24中计算属性 最终的相似度, 表示 为: Simcon=COS(co nceptproperty1, conceptproperty2) 其中, Simcon表示属性property1与property2的上层概念相似度, conceptproperty1,权 利 要 求 书 2/3 页 3 CN 114547323 A 3

.PDF文档 专利 一种二维重叠大样本数据源的细粒度知识图谱融合方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种二维重叠大样本数据源的细粒度知识图谱融合方法 第 1 页 专利 一种二维重叠大样本数据源的细粒度知识图谱融合方法 第 2 页 专利 一种二维重叠大样本数据源的细粒度知识图谱融合方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:27:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。