全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211230302.9 (22)申请日 2022.10.08 (71)申请人 浙江力石科技股份有限公司 地址 310000 浙江省杭州市余杭区文一西 路998号海创园科研孵化区18号楼 506、 507室 (72)发明人 吴倩文 陈海江 张良友  (74)专利代理 机构 杭州云睿专利代理事务所 (普通合伙) 33254 专利代理师 张骁敏 (51)Int.Cl. G06F 16/55(2019.01) G06F 16/583(2019.01) G06F 16/36(2019.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称 基于知识图谱的视觉问答处理方法、 设备及 存储介质 (57)摘要 本申请公开了一种基于知识图谱的视觉问 答处理方法、 设备及存储介质, 属于视觉问答技 术领域, 本申请提供的一种基于知识图谱的视觉 问答处理方法, 通过知 识图谱构建对象物之间的 关系, 通过预训练的预训练的Tran sH模型获取对 于的知识图谱特征, 将视觉特征、 文本问题特征 和知识图谱 特征融合, 基于融合特征获取概率最 高的候选答案, 实现高效准确的视 觉问答处 理。 权利要求书2页 说明书4页 附图2页 CN 115391586 A 2022.11.25 CN 115391586 A 1.一种基于知识图谱的视 觉问答处 理方法, 其特 征在于, 包括如下步骤: 获取待处 理图像和待处 理文本; 将待处理图像输入Faster  R‑CNN网络进行特性提取, 获取所述待 处理图像的第一图像 特征集合, 所述第一图像特征集合为所述待处理图像所有图像特征 的集合, 将第一图像特 征中的图像特征对应嵌入待处理图像中, 输出第一图像特征向量; 其中, 所述图像特征包括 待处理图像中对象物相应的类别标签、 对象物空间位置关系和对象属性; 将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合; 所述文本向量 集合为待处理文本每 个单词对应的词向量组成的集 合; 基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第 一文本 特征向量; 将第一图像特 征向量基于图像空间注意力机制进行处 理, 得到第二图像特 征向量, 将第一文本特 征进行注意力机制处 理得到第二文本特 征向量; 根据第一图像特征集合及第 一文本特征构建待处理图像对应的关联知识图谱, 将处理 图像对应的关联知识图谱输入预训练的TransH知识 表示模型 得到第一知识图谱特 征; 将第二图像特征向量、 第 二文本特征向量机第 一知识图谱特征进行特征融合得到图像 问答特征, 将图像问答特征输入预训练的答案 分类器获取概率最高的类别作为输出候选答 案。 2.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法, 其特征在于, 所述处 理图像对应的关联知识图谱的构建步骤 包括: 获取第一图像特征集合中对象物的类别标签和对象属性, 根据对象属性和类别标签并 基于第一文本特征向量获取主体对 象和背景对 象, 以主体对 象为中心节点、 背景对 象为周 边节点, 以节点和边的的方式生成若干关联子图, 以边缘节点关联权重将生成的若干关联 子图合并为关联知识图谱。 3.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法, 其特征在于, 所述第 一文本特 征向量满足如下公式: FQ=GRU (WQ) ; 式中, WQ={W1,W2,......,Wq}; Wi为序列为 i的单词对应的词向量。 4.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法, 其特征在于, 所述将 第二图像特征向量、 第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特 征满足如下公式: FR=MFB (FQA, FIA, FGA) ; 其中, FR为图像问答特征, FQA为第二文本特征向量, FIA为第二图像特征向量, FGA为第一 知识图谱特 征, 采用MFB进行多模态融合。 5.一种计算机设备, 其特 征在于, 一个或多个处 理器; 存储器, 用于存 储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个处理器 执行如权利要求1至4中任意 一项所述的方法。 6.一种存储有计算机程序的存储介质, 其特征在于, 该程序被处理器执行时实现如权权 利 要 求 书 1/2 页 2 CN 115391586 A 2利要求1至4中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115391586 A 3

.PDF文档 专利 基于知识图谱的视觉问答处理方法、设备及存储介质

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的视觉问答处理方法、设备及存储介质 第 1 页 专利 基于知识图谱的视觉问答处理方法、设备及存储介质 第 2 页 专利 基于知识图谱的视觉问答处理方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。