(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210728837.2
(22)申请日 2022.06.24
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 张鹏飞 彭娟 曾平 杜振国
肖卫东 赵翔 谭真
(74)专利代理 机构 长沙大珂知识产权代理事务
所(普通合伙) 4323 6
专利代理师 伍志祥
(51)Int.Cl.
G06F 16/36(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于知识图谱嵌入模型的链路预测方
法
(57)摘要
本发明公开了一种基于知识图谱嵌入模型
的链路预测方法, 包括: 获取知识图谱; 对于
instanceof三元组单独建模, 对于概念 三元组中
的subclassof三元组, 利用subclassof关系的传
递性进行建模, 对于概念 三元组中除subclassof
三元组的三元组和实例三元组统一归类为关系
三元组并建模; 使用基于边际参数的损失函数作
为优化目标进行训练; 采用随机梯度下降算法来
最小化所述损失函数, 训练结束后得到模型的超
参数; 将缺失头实体或尾实体的关系三元组输入
模型, 输出预测结果。 本发明缓解实例和概念在
同一空间建模带来的实例和概念的嵌入表示聚
集从而影 响模型效果的问题, 很好的建模概念层
次性和isA关系的传递 性。
权利要求书3页 说明书11页 附图2页
CN 115098699 A
2022.09.23
CN 115098699 A
1.一种基于知识图谱嵌入 模型的链路预测方法, 其特 征在于, 包括以下步骤:
获取知识图谱KG={C、 I、 R、 S}, 其中C、 I、 R、 S分别 表示概念集、 实例集、 关系集和三元组
集; 所述三元组集S包含头实体和尾实体都由概念组成的概念三元组、 头实体和尾实体都由
实例组成的实例三元组以及头实体和尾实体分别由实例和概念组成的i nstanceof三元组;
对于instanceof三元组, 由于头实体和尾实体不能在同一个嵌入 空间表示, 单独建模,
对于概念三元组中的subclassof三元组, 利用subclassof关系的传递性进行建模, 对于概
念三元组中除subclas sof三元组的三元组和实例三元组 统一归类为关系三元组并建模;
使用基于边际参数的损失函数作为优化目标进行训练, 所述损失函数限制正三元组 的
分数至少比其负三元组的分数少边际参数γ, 以提高正负 样本之间可区分性;
采用随机梯度下降算法来最小化所述损 失函数, 模型训练时, 强制约束所有的关系三
元组中的实体和关系、 instanceof三元 组以及subclassof中的实例和概念的L2范数小于等
于1, 训练结束后得到模型的超参数;
将缺失头实体或尾实体 的关系三元组(h,r,t)输入模型, 给定(h,r)输出预测结果t或
者给定(r,t)输出 预测结果h 。
2.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 实
例和概念分别在实例嵌入表示空间
和概念嵌入表示空间
表示, 实例嵌入表示空
间维度de比概念嵌入表示空间维度dc高, 即de>dc。
3.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 将
关系集R形式化为
其中, ri表示instanceof关系, rs表示
subclassof关系,
是实例关系集,
是除rs关系外的概念 关系集, 将 三元组集S分为三个
不相交的子集:
instanceof三元组集
其中i∈I, 其嵌入表示
c∈C,
其嵌入表示
ne是Se的大小;
subclassof三元组集
其中ci、 cj∈C , 其嵌入表示
ci是cj的子概念, nc是Sc的大小;
关系三元组集
其中h、 r、 t∈C或h、 r、 t∈I, 其嵌
入表示分别用h,r,t描述,
或
nr是Sr的大小,
为实例关系三
元组集,
其中he, te∈I,
是
的大小,
为概
念关系三元组集,
其中hc, tc∈C,
是
的大小。
4.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 对
于instanceof三元组(i,ri,c)建模如下:
实例i与概念c嵌入表示分别为e和o, 在不同的嵌入表示空间; 由于实例i具有概念c的
属性信息, 实例i的嵌入表示e通过映射后与概念c的嵌入表示向量o接近, 即: 对于权 利 要 求 书 1/3 页
2
CN 115098699 A
2instanceof三元组(i,ri,c), 存在
fins(e)→o
instanceof三元组为多对多关系, 即一个概念可包含多个实例, 一个实例可属于多个
概念; 对于一个概念 对应多个实例的情况, 定义fins(e)为非线性仿射 函数, 即:
fins(e)=σ(W·e+b)
其中,
为权重矩阵,
为偏置向量, σ( ·)为非线性激活函数;
对于同一个实例可能对应多个不同的概念的情况, 为每个概念的嵌入表示增加一个可
学习参数δc, 表示o的δc邻域作用范围, 实例i的嵌入表示e经过映射后, 位于概念c的嵌入向
量表示o的δc邻域作用范围内, 即:
||fins(e)‑o||2≤ δc
其中||·||2为欧式距离公式, δc的意义为: 经过训练后, c所属的实例i的嵌入表示e经
过映射后应位于球心点为o、 半径为δc的超球邻域内, 即训练后e经过映射会在o的嵌入表示
周围, 而不是与点 o重合, 以解决同一个实例对应的不同概念在训练后聚集的问题;
instanceof三元组(i, re, c)的目标函数定义 为:
Fe(e,o)=| |fins(e)‑o||2‑δc。
5.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 对
于subclas sof三元组(ci,rs,cj)建模如下:
概念ci是概念cj的子概念, 概念ci与概念cj同处于一个属性空间, 则oi应在oj的δj邻域作
用范围内; 结合三元组(i, ri, ci)和(ci, rs, cj), 根据isA关系的传递性推理出(i, ri, cj), 由
此, ci所属的所有实例经 过映射后的嵌入表示在oj的δj邻域作用范围内:
若使ci所属的所有实例经过映射后的嵌入表示都在oj的δj邻域作用范围内, 则oi的δi邻
域作用范围在oj的δj邻域作用范围内, 由此, 将 subclassof三元组(ci, rc, cj)的目标函数定
义为:
Fsub(oi,oj)=||oi‑oj||2‑( δj‑δi)。
6.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 对
于关系三元组(h,r,t)建模如下:
对于实例关系三元组和概念三元组, 在对应的实例嵌入表示空间或概念嵌入表示空间
分别为h、 r、 t学习嵌入表示h,r,t, 采用经典的TransE模型建模, 目标函数定义 为:
Fr=||h+r‑t||2
该模型可处理subclasso f关系的传递性; 如果存在2个正三元组样本(ci, rs, cj)和(cj,
rs, ck), 根据模型, 概念 ci的嵌入表示oi的δi超球邻域作用范围在cj的嵌入表示oj的δj超球邻
域作用范围内, oj的δj超球邻域作用范围在ok的δk超球邻域作用范围内, 可得出oi的δi超球
邻域作用范围也在ok的δk超球邻域作用范围内, 即是(ci, rs, ck)为正样本; 同时, 通 过不同的
概念参数δc来描述概念的层次结构信息, δc值越大, 概念层次相对越高, 反之, 概念的层次相
对越低。
7.根据权利要求1所述的一种基于知识图谱嵌入模型的链路预测方法, 其特征在于, 采
用自对抗负抽样的方法, 根据当前的嵌入模型对负三元组进 行抽样, 具体来说, 从以下分布
中抽样负三组:权 利 要 求 书 2/3 页
3
CN 115098699 A
3
专利 一种基于知识图谱嵌入模型的链路预测方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:53:43上传分享