(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211065570.X
(22)申请日 2022.09.01
(71)申请人 广东工业大 学
地址 510000 广东省广州市东 风东路729号
(72)发明人 陈平华 王清荷
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 张慧敏
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多源异构数据融合的知识图谱链
路预测方法
(57)摘要
针对现有知识图谱的链路预测方法只关注
三元组和图结构的信息, 忽略了丰富的多模态信
息的问题。 本发 明公开了一种基于多源异构数据
融合的知识图谱链路预测的方法, 利用文本信
息、 图片信息和知识图谱图结构信息进行链路预
测。 步骤包括: 步骤1): 获取待补全的知识图谱三
元组数据、 图片数据和文本描 述数据; 步骤2): 融
合知识图谱 数据和图片数据构建多模态知识图;
步骤3)对文本描述数据进行编码, 获得三元 组的
文本嵌入; 步骤4)对多模态知识图中的图结构数
据进行编码, 获得三元组的图结构嵌入; 步骤5)
对所有三元 组进行采样; 步骤6)通过图传播阶段
更新实体和关系表示; 步骤7)将上述编码操作后
的数据输入卷积神经网络中, 执 行解码操作。
权利要求书3页 说明书7页 附图2页
CN 115391563 A
2022.11.25
CN 115391563 A
1.一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于包括以下步骤:
1)获取待补全的知识图谱三元组数据、 图片数据和文本描述数据;
2)融合知识图谱数据和图片数据构建多模态知识图;
3)对文本描述数据进行编码, 获得三元组的文本嵌入;
4)对多模态知识图中的图结构数据进行编码, 获得三元组的图结构嵌入;
5)对所有三元组进行采样;
6)通过图传播阶段 更新实体和关系表示;
7)将上述编码 操作后的数据输入卷积神经网络中, 执 行解码操作。
2.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤1)中: 所述获取 数据过程具体步骤为:
1)获取知识图谱三元组数据K;
2)获取与知识图谱三元组实体相关的图片数据G, 并将图片大小统一 为224*224;
3)获取与待预测实体相关的文本描述数据T。
3.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤2)中: 所述构建多模态知识图过程的具体步骤为:
1)将获取的图片数据G输入深度卷积网络(如VG G16)得到高维图片特 征嵌入;
2)将高维图片特 征数据输入主成分 分析算法(PCA),得到低维图片特 征嵌入Gt;
3)将获取的知识图谱三元组数据K输入嵌入层得到初步实体嵌入向量;
4)将上述初步实体嵌入向量输入全连接层, 得到与图片特征嵌入相同维度的实体嵌入
向量Kt;
5)引入图片数据G中的实体作为待预测知识图谱的一级公民, 由知识图谱三元组数据
和图片数据构成多模态知识图MKG。
4.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤3)中: 所述获得三元组的文本嵌入过程的具体步骤为:
1)用BERT作文本编码器, 对文本描述数据T 进行编码;
2)三元组t的文本嵌入tT由以下部分组成:
其中三元组头实体vh、 关系r和尾实体vt的输出嵌入依次标记为
rT和
5.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤4)中: 所述获得三元组的图结构嵌入过程的具体步骤为:
1)将单个相邻三元组t=(vh,r,vt)初始参数化 为:
其中cG是潜在表示, W2是线性变换矩阵,
rG和
表示门控图神经网络的vh、 r和vt的
输入嵌入;
2)在涉及邻域的所有三元组上使用softmax函数计算相对重要性分数; 该过程的公式
定义如下:权 利 要 求 书 1/3 页
2
CN 115391563 A
2其中
表示第i个相邻三元组ti的相对重要性分数, W3是遵循类似LeakyReLU的激活函
数σ 的权重矩阵;
3)通过将所有相邻三元组的总和按其相对重要性得分加权, 获得节点v的聚合嵌入:
上述使用的是原 始广义图注意力网络的简化版, 只考虑一跳邻域;
4)使用以下等式构造 输出关系嵌入:
其中
是线性变换, RG是通过将输入关系嵌入从
连接到
生成的输出关系嵌入;
5)对于每 个三元组t, 图结构嵌入可以表示 为:
6.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤5)中: 所述采样过程采用定长抽样的方法, 具体来说, 定义需要的邻居个数S,然
后采用有放回的重采样/负采样方法达 到S, 最后得到三元组t的邻域子集
7.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特
征在于步骤6)中: 所述图传播过程的具体步骤为:
1)将实体和关系的嵌入投影到相同的语义空间中:
其中VT, RT来自步骤3的BERT, VG, RG来自步骤4的广义图注意力网络,
是实体的投影
矩阵,
是关系的投影矩阵;
2)对于步骤5采样后得到的邻域子集, 我们根据
中三元组的注意力值构造邻接矩
阵; 实体嵌入
的更新过程与门控图神经网络相同(L i et al.,2016):
权 利 要 求 书 2/3 页
3
CN 115391563 A
3
专利 一种基于多源异构数据融合的知识图谱链路预测方法
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:31上传分享