全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210028340.X (22)申请日 2022.01.11 (71)申请人 重庆师范大学 地址 401331 重庆市沙坪坝区大 学城中路 37号 (72)发明人 翟浩 陈立志 方小龙 潘龙越  杨有  (74)专利代理 机构 北京和联顺知识产权代理有 限公司 1 1621 代理人 白京萍 (51)Int.Cl. G06V 10/46(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Transformer结构的 图像描述生成模型 方法、 装置和计算机设备 (57)摘要 本申请涉及计算机视觉和自然语言处理技 术领域, 公开了一种基于Transformer结构的图 像描述生成模型方法、 装置和计算机设备, 本申 请使用Faster  R‑CNN模型提取 图像显著区域特 征, 使用VC  R‑CNN模型提取视觉常识特征, 通过 将显著区域特征和视觉常识特征分层输入到 Transformer编码器中, 并在每一分层中设计使 用了自适应常识门, 从而增强了图像描述生成模 型对视觉常识信息的提取能力, 同时进一步融合 了图像的显著区域信息和视觉常识信息, 生成更 加符合语境的描述语句, 从而减少生成语句中的 内容缺失, 提高描述语句的准确性。 权利要求书3页 说明书12页 附图3页 CN 114266905 A 2022.04.01 CN 114266905 A 1.一种基于Transformer结构的图像描述 生成模型 方法, 其特 征在于, 包括: 提取图像特 征, 其中, 所述图像特 征包括显著区域特 征和视觉常识特 征; 将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中, 以生成自适 应融合的编码特征, 其中, Tr ansformer编码器包括多个分层, 多个所述分层根据所述显著 区域特征和视觉常识特征生成自适应常识门, 所述自适应常识门用于对所述显著区域特征 和所述视 觉常识特 征进行自适应融合; 将所述编码特 征输入至Transformer解码器中完成训练, 以搭建图像描述 生成模型; 基于MSCOCO数据集对所述图像描述 生成模型进行测试, 以完成图像到语句的转 化。 2.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 所述提取图像特 征的步骤, 包括: 基于Faster  R‑CNN构建图像的区域建议网络; 将所述区域建议网络引入深度神经网络模型中, 得到基于深度神经网络的组合图像特 征, 将所述组合图像特 征作为显著区域特 征; 基于VCR‑CNN提取图像边界框的坐标, 其中, 坐标包括多个; 将多个所述 坐标输入卷积神经网络模型中进行训练, 训练完成后得到 视觉常识特 征。 3.根据权利要求2所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 所述将所述区域建议网络引入深度神经网络模型中, 得到基于深度神经网络的组合图 像特征的步骤, 包括: 基于所述区域建议网络获取多个不同批次的多个第一图像; 对每一个批次的每一个所述第 一图像进行短边缩放, 得到每一个批次的短边缩放的多 个第二图像; 将每一个批次的多个所述第二图像传入卷积神经网络层中以对多个所述第二图像进 行卷积和池化, 以生成每一个批次的多个第二图像的组合图像特 征。 4.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 所述将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中, 以生 成自 适应融合的编码特 征的步骤, 包括: 对所述显著区域特 征和所述视 觉常识特 征进行拼接, 得到拼接融合特 征; 根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模, 得到ACG融合 模型; 将所述拼接融合特 征输入到所述ACG融合模型中进行训练, 得到ACG输出 特征; 将所述ACG输出特征分层输入到自注意力块中进行融合, 得到多个层次的融合编码向 量, 其中, 所述自注意力块包括多个, 多个所述自注意力块进行模态内和跨模态的分层交 互; 对所述融合编码向量进行残差和归一 化处理, 得到自适应融合的编码特 征。 5.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 所述对所述显著区域特征和所述视觉 常识特征进 行拼接, 得到拼接融合特征的步骤, 包 括: 基于所述视 觉常识特 征依次获取每一个所述视 觉常识特 征对应的视 觉特征向量; 基于所述显著区域特 征依次获取每一个所述显著区域特 征对应的显著区域向量;权 利 要 求 书 1/3 页 2 CN 114266905 A 2根据所述视觉特征向量与所述显著区域向量对所述显著区域特征和所述视觉常识特 征进行拼接, 其中, 拼接公式为: vci=[vi, ci]; VC={vc1, vc2,…, vcN}; 其中, 所述vi∈Rd, ci∈Rd, vci∈R2d, vi∈Rd表示d维的第i个视觉特征 向量, ci∈Rd表示d 维的第i个显著区域 向量, vci∈R2d表示2d维的显著区域特征和视觉常识特征的拼接向量; 所述vci表示第i个显著区域特 征和第i个视 觉常识特 征拼接; VC表示 拼接融合特 征。 6.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 根据所述拼接融合特征对图像模态间和模态内的常识 性关系进 行建模, 得到AC G融合模 型的步骤, 包括: 获取所述拼接融合特 征中显著区域特 征的第一线性表示; 获取所述拼接融合特 征中视觉常识特 征的第二线性表示; 根据所述第一线性表示与所述第二线性表示, 计算拼接融合特征的线性表示施加影 响, 其中, 计算公式为: fvc=sigmoid(gv+gc)*gc; 其中, 所述fvc表示拼接融合特征的线性表示施加影响; gv表示第一线性表示; gc表示第 二线性表示; 根据所述线性表示施加影响对所述拼接融合特征的模态间和模态内的常识性关系进 行建模, 得到ACG融合模型, 其中, 建模过程 为: Vacg=tanh(Wffvc+bf)+V; 其中, Vacg表示模态间和模态内的常识性关系, fvc表示拼接融合特征的线性表示施加影 响, Wf表示需要被学习的权 重, bf表示偏置项, V 表示显著区域特 征, V={v1, v2,…, vN}。 7.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法, 其特征在 于, 将所述编码特征输入至Transformer 解码器中完成训练, 以搭建图像描述生 成模型的步 骤, 包括: 向Transformer解码器中的掩码自注意块输入标签信息, 并将所述掩码自注意块作为 第一子层, 得到第一子层的第一特 征信息; 将所述第一特征信息与所述编码特征作 为查询向量输入到Transformer解码器中的交 叉注意力块中, 并将所述交叉注意力块作为第二子层, 得到第二子层的第二特 征信息; 将所述第二特 征信息输入到位置前馈网络进行非线性变换训练; 返回到所述向Transformer解码器中的掩码自注意块输入标签信息的步骤, 并对返回 次数进行计数, 得到返回总数; 判断所述返回总数 是否超过 预设次数; 若所述返回总数超过预设次数, 判定所述第二特征信息训练完成, 搭建图像描述生成 模型。 8.一种基于Transformer结构的图像描述 生成模型装置, 其特 征在于, 包括: 提取模块, 用于提取图像特征, 其中, 所述图像特征包括显著区域特征和视觉常识特 征; 分层输入模块, 用于将所述显著区域特征和视觉常识特征分层输入到Transformer编权 利 要 求 书 2/3 页 3 CN 114266905 A 3

.PDF文档 专利 基于Transformer结构的图像描述生成模型方法、装置和计算机设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer结构的图像描述生成模型方法、装置和计算机设备 第 1 页 专利 基于Transformer结构的图像描述生成模型方法、装置和计算机设备 第 2 页 专利 基于Transformer结构的图像描述生成模型方法、装置和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:16:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。