专利 知识图谱补全方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210249612.9 (22)申请日 2022.03.14 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人唐飞龙　任世伟　朱燕民　俞嘉地　唐灿　姚斌　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 专利代理师胡晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称知识图谱补全方法及系统 (57)摘要本发明提供了一种知识图谱补全方法及系统，涉及数据处理技术领域，该方法包括：步骤 S1：输入需要进行缺失三元组补全的知识图谱；步骤S2：训练基于空间投影和卷积神经网络的负采样评估模型；步骤S3：根据负采样评估模型生成高质量错误三元组来构建训练集；步骤S4：训练融合三元组上下文语义的知识图谱补全模型；步骤S5：根据知识图谱补全模型进行知识图谱补全。本发明能够获得优异的知识图谱补全评价指标的情况下，能够适用于大规模知识图谱补全任务。权利要求书3页说明书9页附图2页 CN 114610900 A 2022.06.10 CN 114610900 A 1.一种知识图谱补全方法，其特征在于，包括：步骤S1：输入需要进行缺失三元组补全的知识图谱；步骤S2：训练基于空间投影和卷积神经网络的负采样评估模型；步骤S3：根据负采样评估模型生成高质量错误三元组来构建训练集；步骤S4：训练融合三元组上下文语义的知识图谱补全模型；步骤S5：根据知识图谱补全模型进行知识图谱补全。 2.根据权利要求1所述的知识图谱补全方法，其特征在于，所述步骤S2包括：步骤S2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；步骤S2.2：基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h⊥， r， t⊥)作为输入，输出三元组的得分，三元组打分模块采用交叉熵损失函数进行优化；具体计算公式如下：其中， G代表正样本的集合， G ′代表负样本的集合， l(h， r， t)是三元组对应的标签， f(h， r， t)是三元组的得分；步骤S2.3：对空间投影模块和三元组打分模块进行联合训练，多次迭代更新模型参数。 3.根据权利要求2所述的知识图谱补全方法，其特征在于，所述步骤S2.1包括：步骤S2.1.1：对每个三元组，定义投影向量(hp， rp， tp)和语义向量(h， r， t)；步骤S2.1.2：将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h⊥，将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp 共同决定的超平面得到t⊥；其中，空间投影公式如下： h⊥＝Mrhh t⊥＝Mrtt 其中， Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵，为头实体投影向量的转置， Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵，为尾实体投影向量的转置。 4.根据权利要求2所述的知识图谱补全方法，其特征在于，所述步骤S2.2包括：步骤S2.2.1：每个三元组(h⊥， r， t⊥)表示为一个三列的矩阵，输送到卷积层，多个卷积核对其进行二维卷积操作输出多个特征图；步骤S2.2.2：多个特征图拼接为一个单个的特征向量作为全连接层输入，最后全连接层输出当前三元组的得分；具体计算公式如下： f(h， r， t)＝co ncat(g([h⊥， r， t⊥]*Ω))·W 其中， f(·)为打分函数， concat为向量拼接操作， g( ·)是激活函数， *是卷积操作， Ω权　利　要　求　书 1/3 页 2 CN 114610900 A 2是卷积核参数， W是全连接层参数。 5.根据权利要求1所述的知识图谱补全方法，其特征在于，所述步骤S3包括：步骤S3.1：采用随机替换正确三元组中的头实体或尾实体的方式，生成初始错误三元组；步骤S3.2：将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中，负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集；步骤S3.3：在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补全任务。 6.根据权利要求1所述的知识图谱补全方法，其特征在于，所述步骤S4包括：步骤S4.1：基于循环神经网络，构建三元组上下文语义提取模块，将(h， r， t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息；具体计算公式如下： c＝RNN(h， r， t) 其中， c为三元组语义依赖信息向量， RN N为循环神经网络；步骤S4.2：构建基于翻译模型的知识图谱补全模块，融合三元组上下文语义提取模块的输出，学习实体和关系的嵌入向量，知识图谱补全模块采用边际损失函数进行优化；具体计算公式如下： rc＝concat(r， c) 其中， concat为向量拼接操作， f( ·)为打分函数，并且使用L2正则化来防止模型过拟合， f(h， r， t)为正实例的得分， f(h ′， r， t′)为错误三元组的得分， γ为表示边缘的超参数；步骤S4.3：根据步骤S3得到的高质量错误三元组训练集，对三元组上下文语义提取模块和知识图谱补全模块进行联合训练，多次迭代更新模型参数。 7.一种知识图谱补全系统，其特征在于，包括：模块M1：输入需要进行缺失三元组补全的知识图谱；模块M2：训练基于空间投影和卷积神经网络的负采样评估模型；模块M3：根据负采样评估模型生成高质量错误三元组来构建训练集；模块M4：训练融合三元组上下文语义的知识图谱补全模型；模块M5：根据知识图谱补全模型进行知识图谱补全。 8.根据权利要求7 所述的知识图谱补全系统，其特征在于，所述模块M2包括：模块M2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；模块M2.2：基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h⊥， r， t⊥)作为输入，输出三元组的得分，三元组打分模块采用交叉熵损失函数进行优化；具体计算公式如下：权　利　要　求　书 2/3 页 3 CN 114610900 A 3

专利 知识图谱补全方法及系统

专利知识图谱补全方法及系统