专利一种二维重叠大样本数据源的细粒度知识图谱融合方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111646665.6 (22)申请日 2021.12.3 0 (71)申请人杭州碧湾信息技术有限公司地址 310051 浙江省杭州市滨江区江陵南路312号B幢1901室 (72)发明人季白杨　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 专利代理师赵芳 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种二维重叠大样本数据源的细粒度知识图谱融合方法 (57)摘要本发明公开了一种二维重叠大样本数据源的细粒度知识图谱融合方法，包括： S1.对知识图谱相对应的属性三元组进行迭代式的实体对齐，得到对其的实体对集合，对实体对进行相似度的多层次分级，得到高置信度的实体对；将得到的高置信度实体对作为嵌入式模型的训练数据集，利用关系三元组做嵌入式模型的结构化嵌入，得到实体和关系的高维空间向量表示，对属性和关系设置权重，得到属性和关系最终的相似度； S2. 根据得到的相似度对实体属性进行筛选，得到属性最终的相似度； S3.基于机器学习训练得到的分类器模型、原子表达式算法自动完成高置信度实体对和属性的知识特征融合； S4.基于知识特征融合，完成双向监督交互式数据融合。权利要求书3页说明书11页附图1页 CN 114547323 A 2022.05.27 CN 114547323 A 1.一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，包括： S1.对知识图谱相对应的属性三元组进行迭代式的实体对齐，得到对其的实体对集合，对实体对进行相似度的多层次分级，得到高置信度的实体对；将得到的高置信度实体对作为嵌入式模型的训练数据集，利用关系三元组做嵌入式模型的结构化嵌入，得到实体和关系的高维空间向量表示，对属性和关系设置权重，得到属性和关系最终的相似度； S2.根据得到的相似度对实体属性进行筛选，得到属性最终的相似度； S3.基于机器学习训练得到的分类器模型、原子表达式算法自动完成高置信度实体对和属性的知识特征融合； S4.基于知识特征融合，完成双向监督交互式数据融合。 2.根据权利要求1所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S1具体包括： S11.对属性三元组基于迭代模型进行实体对齐，基于属性和属性相对应的属性值进行实体匹配操作，得到实体对集合，并利用实体对集合进行属性相似度匹配操作得到属性对集合，得到高置信度的实体对； S12.将得到的高置信度实体对作为嵌入模型的训练数据集，利用关系三元组做结构化嵌入，对待融合知识图谱进行全局结构的刻画和建模，最终得到实体和关系的高维空间向量表示； S13.基于不同权重对属性对齐和关系对齐进行融合，得到关系与属性两个维度的对齐结果，并采取线性结合的方式得到属性和关系总的相似度。 3.根据权利要求2所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S2具体包括： S21.计算属性之间的相似度； S22.计算相邻实体之间的相似度； S23.计算属性标签集合的相似度； S24.筛选知识图谱中实体属性的上层概念路径，形成路径向量，并计算属性最终的相似度。 4.根据权利要求3所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S3具体包括： S31.利用机器学习训练得到分类器模型，并利用二分类方法处理实体融合； S32.利用原子表达式筛选属性； S33.将原子表达式进行组合使用，完成高置信度实体对和属性的知识特征融合。 5.根据权利要求4所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S4具体包括： S41.基于TransE算法和PtransE算法对三元组的向量进行嵌入，完成单个知识图谱的训练； S42.将经过处理的实体和关系的高维空间向量重新映射在低纬空间之中，并在映射过程中分别形成对实体和关系向量的约束，完成双向监督交互式数据融合。 6.根据权利要求2所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S11具体包括：权　利　要　求　书 1/3 页 2 CN 114547323 A 2S111.对属性对齐时的公共属性设置统一权重，并计算实体之间的相似度，表示为：其中， SimA(e1， e2)表示实体e1与实体e2之间的相似度；表示实体 e1在两个实体共有的第k个属性；表示实体e2在两个实体共有的第 k个属性； n表示两实体公有属性的总个数； Simv表示的是两个属性值和之间相似度，表示为：其中， levenshteinSim表示基于Levenshtein距离计算的相似度； lcsSim表示通过字符串公共的最长子串进行相似度计算； S112.根据对齐的实体对查找潜在对齐的属性对，表示为：其中，表示属性对的相似度；表示实体有限集合中元素个数；表示属性值间相似度。 7.根据权利要求6所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S13中得到属性和关系总的相似度，表示为： Sim(Ei， Ej)＝ λ ×simR(ei,ej)+(1 ‑λ )×simA(ei,ej) 其中， simR表示基于关系三元组得到相似度； simA表示利用属性三元组得到的相似度； λ表示权重； sim(Ei， Ej)表示总的相似度。 8.根据权利要求3所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S21中计算属性之间的相似度，表示为： Simproperty＝COS(Nameproperty1Nameproperty2) 其中Simproperty表示两个属性pr operty1和pr operty2在属性名层面相似性； Nameproperty1 与Nameproperty2分别表示高维空间向量表示。 9.根据权利要求8所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S22中计算相邻实体之间的相似度，表示为： Simentity＝|entityL ist1∩entityL ist2|/|entityL ist1∪entityL ist2| 其中Simentity表示两个相邻实体相似度； entityList1与entityList2表示属性 property1与属性proper ty2相邻实体的有限集合。 10.根据权利要求9所述的一种二维重叠大样本数据源的细粒度知识图谱融合方法，其特征在于，所述步骤S23中计算属性标签集合的相似度，表示为： Simlabel＝COS(labelproperty1， labelproperty2) 其中， Simlabel表示属性proper ty的有限标签相似度；所述步骤S24中计算属性最终的相似度，表示为： Simcon＝COS(co nceptproperty1， conceptproperty2) 其中， Simcon表示属性property1与property2的上层概念相似度， conceptproperty1，权　利　要　求　书 2/3 页 3 CN 114547323 A 3

专利 一种二维重叠大样本数据源的细粒度知识图谱融合方法

专利一种二维重叠大样本数据源的细粒度知识图谱融合方法