专利一种增强视觉信息流的图像描述生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210759217.5 (22)申请日 2022.06.29 (71)申请人厦门大学地址 361005 福建省厦门市思明区思明南路422号 (72)发明人纪荣嵘　周奕毅　吴明瑞　张旭迎　 (74)专利代理机构厦门南强之路专利事务所 (普通合伙) 35200 专利代理师马应森 (51)Int.Cl. G06V 10/424(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/26(2022.01) (54)发明名称一种增强视觉信息流的图像描述生成方法 (57)摘要一种增强视觉信息流的图像描述生成方法，涉及人工智能领域。使用Faster ‑RCNN提取网格特征作为图片网格特征表示；使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示；将网格特征与分割特征展平，线性变换后送入可迭代的独立的层正则化模块中融合；用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征，送入解码器中，解码器以自回归的方式生成图像描述；在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型，通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度，使得每个词预测更集中于视觉内容。权利要求书1页说明书7页附图4页 CN 115049844 A 2022.09.13 CN 115049844 A 1.一种增强视觉信息流的图像描述生成方法，其特征在于包括以下步骤： 1)给定一张图片，使用Faster ‑RCNN提取网格特征作为这张图片的网格特征表示； 2)对步骤1)中的图片使用一个全景分割网络提取分割图，并将该分割图转换成二值图作为这张图片的分割特征表示； 3)分别将网格特征与分割特征展平，分别经过一次线性变换后，送入到可迭代的独立的层正则化模块中融合； 5)将融合后的特征用transformer编码器进行编码，用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征，送入解码器中，解码器以自回归的方式生成图像描述； 6)在所有的多头注意力模块中加入额外的残差连接。 2.如权利要求1所述一种增强视觉信息流的图像描述生成方法，其特征在于在步骤1) 中，所述使用Faster ‑RCNN提取网格特征，不需要生成候选区域，以提高特征提取速度。 3.如权利要求1所述一种增强视觉信息流的图像描述生成方法，其特征在于在步骤2) 中，所述分割特征提取后，可作为一种高级语义提示用来补充原网格特征。 4.如权利要求1所述一种增强视觉信息流的图像描述生成方法，其特征在于在步骤3) 中，所述可迭代的独立的层正则化模块对两种特征进行融合时，采用共享的注意力层和前馈网络，以及采用私有的和共有的层正则化，并且整个模块可迭代计算。 5.如权利要求1所述一种增强视觉信息流的图像描述生成方法，其特征在于在步骤5) 中，所述跨层残差连接用于使两种视觉信息能够直接进入到解码器中。 6.如权利要求1所述一种增强视觉信息流的图像描述生成方法，其特征在于在步骤6) 中，所述在所有的多头注意力模块中加入额外的残差连接，用于保留被多头注意力模块过滤的信息。权　利　要　求　书 1/1 页 2 CN 115049844 A 2一种增强视觉信息流的图像描述生成方法技术领域 [0001]本发明涉及人工智能领域中的视觉和语言多模态任务，具体是涉及对给定图像中视觉内容进行建模并用自然语言描述出来的一种增强视觉信息流的图像描述生成方法。背景技术 [0002]图像描述是基于给定图像生成自然语言描述的任务，需要一个模型来从多个方面理解给定的图像，包括识别对象、动作以及关系，为该图像生成语言描述。将大量的视觉信息压缩为描述性语言对于机器来说非常困难，因此是人工智能领域研究的一个重要的挑战。同时，图像描述也启发很多计算机视觉和自然语言处理相关的研究。 [0003]随着神经机器翻译的发展，编码器解码器框架也被广泛应用于图像字幕任务中。编码器用离线CNN网络提取的一组视觉特征(如网格特征[1])作为输入，进一步编码到视觉语言空间。然后，解码器使用编码器提供的视觉信息和部分生成的字幕预测下一个单词。这种结构只使用一个分支网络来提取和过滤视觉信息，被称之为单信息流(SIF)网络。 [0004]大多数现有方法[2][3][4]都遵循SIF范式构建图像描述网络。有一个主要缺点：来自视觉特征提取器的视觉信息不足，且有时还不准确。尽管在特征提取器上的研究已经取得很大进展[5][6]，但关键的视觉信息如动作和深度信息，即使在使用强大的视觉语言预训练模型的情况下[7]，仍然可能被忽略。上述缺点导致解码器的视觉信息流不足，迫使解码器过度依赖部分生成的字幕来预测其余单词，以确保生成的描述的流畅性。这个问题最终使生成的描述与实际的视觉内容无关。 [0005]为了克服这些缺点，最近的报道[5][8][9][10]引入一些高级视觉提示，比如概念，来补充视觉信息。然而，由于语义不一致[11]和空间错位的问题，需要额外的融合模块将这些线索与视觉特征对齐，这是很低效的且它们很难与采用网格特征的图像描述模型相结合。 [0006]参考文献： [0007][1]Huaizu Jiang,Ishan Misra,Marcus Rohrbach,Erik LearnedMiller,and Xinlei Chen.In defense of grid features for visual question answering.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 10267–10276,2020.1,3,5 。 [0008][2]Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,and Rita Cucchiara.Meshed ‑memory transformer for image captioning.In Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 10578– 10587,2020.1,2,3,5,8。 [0009][3]Lun Huang,Wenmin Wang,Jie Chen,and XiaoYong Wei.Attention on attention for image captioning.In Proceedings of the IEEE/CVF International Conference on Computer Vision,pages 4634–4643,2019.1,2,3,5,8。 [0010][4]Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.X‑linearattention networks for image captioning.In Proceedings ofthe IEEE/CVF Conference on 说　明　书 1/7 页 3 CN 115049844 A 3

专利 一种增强视觉信息流的图像描述生成方法

专利一种增强视觉信息流的图像描述生成方法