专利基于Transformer结构的图像描述生成模型方法、装置和计算机设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210028340.X (22)申请日 2022.01.11 (71)申请人重庆师范大学地址 401331 重庆市沙坪坝区大学城中路 37号 (72)发明人翟浩　陈立志　方小龙　潘龙越　杨有　 (74)专利代理机构北京和联顺知识产权代理有限公司 1 1621 代理人白京萍 (51)Int.Cl. G06V 10/46(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Transformer结构的图像描述生成模型方法、装置和计算机设备 (57)摘要本申请涉及计算机视觉和自然语言处理技术领域，公开了一种基于Transformer结构的图像描述生成模型方法、装置和计算机设备，本申请使用Faster R‑CNN模型提取图像显著区域特征，使用VC R‑CNN模型提取视觉常识特征，通过将显著区域特征和视觉常识特征分层输入到 Transformer编码器中，并在每一分层中设计使用了自适应常识门，从而增强了图像描述生成模型对视觉常识信息的提取能力，同时进一步融合了图像的显著区域信息和视觉常识信息，生成更加符合语境的描述语句，从而减少生成语句中的内容缺失，提高描述语句的准确性。权利要求书3页说明书12页附图3页 CN 114266905 A 2022.04.01 CN 114266905 A 1.一种基于Transformer结构的图像描述生成模型方法，其特征在于，包括：提取图像特征，其中，所述图像特征包括显著区域特征和视觉常识特征；将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中，以生成自适应融合的编码特征，其中， Tr ansformer编码器包括多个分层，多个所述分层根据所述显著区域特征和视觉常识特征生成自适应常识门，所述自适应常识门用于对所述显著区域特征和所述视觉常识特征进行自适应融合；将所述编码特征输入至Transformer解码器中完成训练，以搭建图像描述生成模型；基于MSCOCO数据集对所述图像描述生成模型进行测试，以完成图像到语句的转化。 2.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法，其特征在于，所述提取图像特征的步骤，包括：基于Faster R‑CNN构建图像的区域建议网络；将所述区域建议网络引入深度神经网络模型中，得到基于深度神经网络的组合图像特征，将所述组合图像特征作为显著区域特征；基于VCR‑CNN提取图像边界框的坐标，其中，坐标包括多个；将多个所述坐标输入卷积神经网络模型中进行训练，训练完成后得到视觉常识特征。 3.根据权利要求2所述的基于Transformer结构的图像描述生成模型方法，其特征在于，所述将所述区域建议网络引入深度神经网络模型中，得到基于深度神经网络的组合图像特征的步骤，包括：基于所述区域建议网络获取多个不同批次的多个第一图像；对每一个批次的每一个所述第一图像进行短边缩放，得到每一个批次的短边缩放的多个第二图像；将每一个批次的多个所述第二图像传入卷积神经网络层中以对多个所述第二图像进行卷积和池化，以生成每一个批次的多个第二图像的组合图像特征。 4.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法，其特征在于，所述将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中，以生成自适应融合的编码特征的步骤，包括：对所述显著区域特征和所述视觉常识特征进行拼接，得到拼接融合特征；根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模，得到ACG融合模型；将所述拼接融合特征输入到所述ACG融合模型中进行训练，得到ACG输出特征；将所述ACG输出特征分层输入到自注意力块中进行融合，得到多个层次的融合编码向量，其中，所述自注意力块包括多个，多个所述自注意力块进行模态内和跨模态的分层交互；对所述融合编码向量进行残差和归一化处理，得到自适应融合的编码特征。 5.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法，其特征在于，所述对所述显著区域特征和所述视觉常识特征进行拼接，得到拼接融合特征的步骤，包括：基于所述视觉常识特征依次获取每一个所述视觉常识特征对应的视觉特征向量；基于所述显著区域特征依次获取每一个所述显著区域特征对应的显著区域向量；权　利　要　求　书 1/3 页 2 CN 114266905 A 2根据所述视觉特征向量与所述显著区域向量对所述显著区域特征和所述视觉常识特征进行拼接，其中，拼接公式为： vci＝[vi， ci]； VC＝{vc1， vc2，…， vcN}；其中，所述vi∈Rd， ci∈Rd， vci∈R2d， vi∈Rd表示d维的第i个视觉特征向量， ci∈Rd表示d 维的第i个显著区域向量， vci∈R2d表示2d维的显著区域特征和视觉常识特征的拼接向量；所述vci表示第i个显著区域特征和第i个视觉常识特征拼接； VC表示拼接融合特征。 6.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法，其特征在于，根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模，得到AC G融合模型的步骤，包括：获取所述拼接融合特征中显著区域特征的第一线性表示；获取所述拼接融合特征中视觉常识特征的第二线性表示；根据所述第一线性表示与所述第二线性表示，计算拼接融合特征的线性表示施加影响，其中，计算公式为： fvc＝sigmoid(gv+gc)*gc；其中，所述fvc表示拼接融合特征的线性表示施加影响； gv表示第一线性表示； gc表示第二线性表示；根据所述线性表示施加影响对所述拼接融合特征的模态间和模态内的常识性关系进行建模，得到ACG融合模型，其中，建模过程为： Vacg＝tanh(Wffvc+bf)+V；其中， Vacg表示模态间和模态内的常识性关系， fvc表示拼接融合特征的线性表示施加影响， Wf表示需要被学习的权重， bf表示偏置项， V 表示显著区域特征， V＝{v1， v2，…， vN}。 7.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法，其特征在于，将所述编码特征输入至Transformer 解码器中完成训练，以搭建图像描述生成模型的步骤，包括：向Transformer解码器中的掩码自注意块输入标签信息，并将所述掩码自注意块作为第一子层，得到第一子层的第一特征信息；将所述第一特征信息与所述编码特征作为查询向量输入到Transformer解码器中的交叉注意力块中，并将所述交叉注意力块作为第二子层，得到第二子层的第二特征信息；将所述第二特征信息输入到位置前馈网络进行非线性变换训练；返回到所述向Transformer解码器中的掩码自注意块输入标签信息的步骤，并对返回次数进行计数，得到返回总数；判断所述返回总数是否超过预设次数；若所述返回总数超过预设次数，判定所述第二特征信息训练完成，搭建图像描述生成模型。 8.一种基于Transformer结构的图像描述生成模型装置，其特征在于，包括：提取模块，用于提取图像特征，其中，所述图像特征包括显著区域特征和视觉常识特征；分层输入模块，用于将所述显著区域特征和视觉常识特征分层输入到Transformer编权　利　要　求　书 2/3 页 3 CN 114266905 A 3

专利 基于Transformer结构的图像描述生成模型方法、装置和计算机设备

专利基于Transformer结构的图像描述生成模型方法、装置和计算机设备