(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211065570.X (22)申请日 2022.09.01 (71)申请人 广东工业大 学 地址 510000 广东省广州市东 风东路729号 (72)发明人 陈平华 王清荷  (74)专利代理 机构 长沙轩荣专利代理有限公司 43235 专利代理师 张慧敏 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多源异构数据融合的知识图谱链 路预测方法 (57)摘要 针对现有知识图谱的链路预测方法只关注 三元组和图结构的信息, 忽略了丰富的多模态信 息的问题。 本发 明公开了一种基于多源异构数据 融合的知识图谱链路预测的方法, 利用文本信 息、 图片信息和知识图谱图结构信息进行链路预 测。 步骤包括: 步骤1): 获取待补全的知识图谱三 元组数据、 图片数据和文本描 述数据; 步骤2): 融 合知识图谱 数据和图片数据构建多模态知识图; 步骤3)对文本描述数据进行编码, 获得三元 组的 文本嵌入; 步骤4)对多模态知识图中的图结构数 据进行编码, 获得三元组的图结构嵌入; 步骤5) 对所有三元 组进行采样; 步骤6)通过图传播阶段 更新实体和关系表示; 步骤7)将上述编码操作后 的数据输入卷积神经网络中, 执 行解码操作。 权利要求书3页 说明书7页 附图2页 CN 115391563 A 2022.11.25 CN 115391563 A 1.一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于包括以下步骤: 1)获取待补全的知识图谱三元组数据、 图片数据和文本描述数据; 2)融合知识图谱数据和图片数据构建多模态知识图; 3)对文本描述数据进行编码, 获得三元组的文本嵌入; 4)对多模态知识图中的图结构数据进行编码, 获得三元组的图结构嵌入; 5)对所有三元组进行采样; 6)通过图传播阶段 更新实体和关系表示; 7)将上述编码 操作后的数据输入卷积神经网络中, 执 行解码操作。 2.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤1)中: 所述获取 数据过程具体步骤为: 1)获取知识图谱三元组数据K; 2)获取与知识图谱三元组实体相关的图片数据G, 并将图片大小统一 为224*224; 3)获取与待预测实体相关的文本描述数据T。 3.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤2)中: 所述构建多模态知识图过程的具体步骤为: 1)将获取的图片数据G输入深度卷积网络(如VG G16)得到高维图片特 征嵌入; 2)将高维图片特 征数据输入主成分 分析算法(PCA),得到低维图片特 征嵌入Gt; 3)将获取的知识图谱三元组数据K输入嵌入层得到初步实体嵌入向量; 4)将上述初步实体嵌入向量输入全连接层, 得到与图片特征嵌入相同维度的实体嵌入 向量Kt; 5)引入图片数据G中的实体作为待预测知识图谱的一级公民, 由知识图谱三元组数据 和图片数据构成多模态知识图MKG。 4.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤3)中: 所述获得三元组的文本嵌入过程的具体步骤为: 1)用BERT作文本编码器, 对文本描述数据T 进行编码; 2)三元组t的文本嵌入tT由以下部分组成: 其中三元组头实体vh、 关系r和尾实体vt的输出嵌入依次标记为 rT和 5.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤4)中: 所述获得三元组的图结构嵌入过程的具体步骤为: 1)将单个相邻三元组t=(vh,r,vt)初始参数化 为: 其中cG是潜在表示, W2是线性变换矩阵, rG和 表示门控图神经网络的vh、 r和vt的 输入嵌入; 2)在涉及邻域的所有三元组上使用softmax函数计算相对重要性分数; 该过程的公式 定义如下:权 利 要 求 书 1/3 页 2 CN 115391563 A 2其中 表示第i个相邻三元组ti的相对重要性分数, W3是遵循类似LeakyReLU的激活函 数σ 的权重矩阵; 3)通过将所有相邻三元组的总和按其相对重要性得分加权, 获得节点v的聚合嵌入: 上述使用的是原 始广义图注意力网络的简化版, 只考虑一跳邻域; 4)使用以下等式构造 输出关系嵌入: 其中 是线性变换, RG是通过将输入关系嵌入从 连接到 生成的输出关系嵌入; 5)对于每 个三元组t, 图结构嵌入可以表示 为: 6.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤5)中: 所述采样过程采用定长抽样的方法, 具体来说, 定义需要的邻居个数S,然 后采用有放回的重采样/负采样方法达 到S, 最后得到三元组t的邻域子集 7.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法, 其特 征在于步骤6)中: 所述图传播过程的具体步骤为: 1)将实体和关系的嵌入投影到相同的语义空间中: 其中VT, RT来自步骤3的BERT, VG, RG来自步骤4的广义图注意力网络, 是实体的投影 矩阵, 是关系的投影矩阵; 2)对于步骤5采样后得到的邻域子集, 我们根据 中三元组的注意力值构造邻接矩 阵; 实体嵌入 的更新过程与门控图神经网络相同(L i et al.,2016): 权 利 要 求 书 2/3 页 3 CN 115391563 A 3

.PDF文档 专利 一种基于多源异构数据融合的知识图谱链路预测方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多源异构数据融合的知识图谱链路预测方法 第 1 页 专利 一种基于多源异构数据融合的知识图谱链路预测方法 第 2 页 专利 一种基于多源异构数据融合的知识图谱链路预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:31上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。