全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210249612.9 (22)申请日 2022.03.14 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 唐飞龙 任世伟 朱燕民 俞嘉地  唐灿 姚斌  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 专利代理师 胡晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 知识图谱补全方法及系统 (57)摘要 本发明提供了一种知识图谱补全方法及系 统, 涉及数据处理技术领域, 该方法包括: 步骤 S1: 输入需要进行缺失三元组补全的知识图谱; 步骤S2: 训练基于空间投影和卷积神经网络的负 采样评估模型; 步骤S3: 根据负采样评估模型生 成高质量错误三元组来构建训练集; 步骤S4: 训 练融合三元 组上下文语义的知识图谱补全模型; 步骤S5: 根据知 识图谱补全模型进行知识图谱补 全。 本发明能够获得优异的知识图谱补全评价指 标的情况下, 能够适用于大规模知识图谱补全任 务。 权利要求书3页 说明书9页 附图2页 CN 114610900 A 2022.06.10 CN 114610900 A 1.一种知识图谱补全方法, 其特 征在于, 包括: 步骤S1: 输入需要 进行缺失三元组补全的知识图谱; 步骤S2: 训练基于空间投影和卷积神经网络的负采样评估 模型; 步骤S3: 根据负采样评估 模型生成高质量 错误三元组来构建训练集; 步骤S4: 训练融合 三元组上 下文语义的知识图谱补全 模型; 步骤S5: 根据知识图谱补全 模型进行知识图谱补全。 2.根据权利要求1所述的知识图谱补全方法, 其特 征在于, 所述 步骤S2包括: 步骤S2.1: 基于空间投影原理, 构建空间投影模块, 用于对实体嵌入向量进行空间投 影; 步骤S2.2: 基于卷积神经网络, 构建三元组打分模块, 以空间投影模块的输出(h⊥, r, t⊥)作为输入, 输出三元组的得分, 三元组打 分模块采用交叉熵损失函数进行优化; 具体计算公式如下: 其中, G代表正样本的集合, G ′代表负样本的集合, l(h, r, t)是三元组对应的标签, f(h, r, t)是三元组的得分; 步骤S2.3: 对空间投影模块和三元组打 分模块进行 联合训练, 多次迭代更新模型参数。 3.根据权利要求2所述的知识图谱补全方法, 其特 征在于, 所述 步骤S2.1包括: 步骤S2.1.1: 对每 个三元组, 定义投影向量(hp, rp, tp)和语义向量(h, r, t); 步骤S2.1.2: 将头 实体的语义向量h投影至由头 实体投影向量hp和关系投影向量rp共同 决定的超平面 得到h⊥, 将尾实体的语 义向量t投影至由尾实体投影向量tp和关系投影向量rp 共同决定的超平面得到t⊥; 其中, 空间投影公式如下: h⊥=Mrhh t⊥=Mrtt 其中, Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵, 为头实体投影 向量的转置, Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵, 为尾实体投 影向量的转置 。 4.根据权利要求2所述的知识图谱补全方法, 其特 征在于, 所述 步骤S2.2包括: 步骤S2.2.1: 每个三元组(h⊥, r, t⊥)表示为一个三列的矩阵, 输送到卷积层, 多个卷积 核对其进行二维卷积 操作输出多个特 征图; 步骤S2.2.2: 多个特征图拼接为一个单个的特征向量作为全连接层输入, 最后全连接 层输出当前三元组的得分; 具体计算公式如下: f(h, r, t)=co ncat(g([h⊥, r, t⊥]*Ω))·W 其中, f(·)为打分函数, concat为向量拼接操作, g( ·)是激活函数, *是卷积操作, Ω权 利 要 求 书 1/3 页 2 CN 114610900 A 2是卷积核参数, W是全连接层参数。 5.根据权利要求1所述的知识图谱补全方法, 其特 征在于, 所述 步骤S3包括: 步骤S3.1: 采用随机替换正确三元组中的头实体或尾实体的方式, 生成初始错误三元 组; 步骤S3.2: 将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样 评估模型中, 负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错 误三元组作为 候选集; 步骤S3.3: 在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补 全任务。 6.根据权利要求1所述的知识图谱补全方法, 其特 征在于, 所述 步骤S4包括: 步骤S4.1: 基于循环神经网络, 构建三元组上下文语义提取模块, 将(h, r, t)视为一个 句子作为循环神经网络的输入用于提取三元组中头实体、 关系和尾实体间的语义依赖信 息; 具体计算公式如下: c=RNN(h, r, t) 其中, c为 三元组语义依赖信息向量, RN N为循环神经网络; 步骤S4.2: 构建基于翻译模型的知识图谱补全模块, 融合三元组上下文语义提取模块 的输出, 学习实体和关系的嵌入向量, 知识图谱补全 模块采用边际损失函数进行优化; 具体计算公式如下: rc=concat(r, c) 其中, concat为向量拼接操作, f( ·)为打分函数, 并且使用L2正则化来 防止模型过拟 合, f(h, r, t)为 正实例的得分, f(h ′, r, t′)为错误三元组的得分, γ为表示 边缘的超参数; 步骤S4.3: 根据步骤S3得到的高质量错误三元组训练集, 对三元组上下文语义提取模 块和知识图谱补全 模块进行 联合训练, 多次迭代更新模型参数。 7.一种知识图谱补全系统, 其特 征在于, 包括: 模块M1: 输入需要 进行缺失三元组补全的知识图谱; 模块M2: 训练基于空间投影和卷积神经网络的负采样评估 模型; 模块M3: 根据负采样评估 模型生成高质量 错误三元组来构建训练集; 模块M4: 训练融合 三元组上 下文语义的知识图谱补全 模型; 模块M5: 根据知识图谱补全 模型进行知识图谱补全。 8.根据权利要求7 所述的知识图谱补全系统, 其特 征在于, 所述模块M2包括: 模块M2.1: 基于空间投影原理, 构建空间投影模块, 用于对实体嵌入向量进行空间投 影; 模块M2.2: 基于卷积神经网络, 构建三元组打分模块, 以空间投影模块的输出(h⊥, r, t⊥)作为输入, 输出三元组的得分, 三元组打 分模块采用交叉熵损失函数进行优化; 具体计算公式如下:权 利 要 求 书 2/3 页 3 CN 114610900 A 3

.PDF文档 专利 知识图谱补全方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱补全方法及系统 第 1 页 专利 知识图谱补全方法及系统 第 2 页 专利 知识图谱补全方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。