全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210759217.5 (22)申请日 2022.06.29 (71)申请人 厦门大学 地址 361005 福建省厦门市思明区思明南 路422号 (72)发明人 纪荣嵘 周奕毅 吴明瑞 张旭迎  (74)专利代理 机构 厦门南强之 路专利事务所 (普通合伙) 35200 专利代理师 马应森 (51)Int.Cl. G06V 10/424(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/26(2022.01) (54)发明名称 一种增强视 觉信息流的图像描述 生成方法 (57)摘要 一种增强视觉信息流的图像描述生成方法, 涉及人工智能领域。 使用Faster ‑RCNN提取网格 特征作为图片网格特征表示; 使用一个全景分割 网络提取分割图转换成二值图作为这张图片的 分割特征表示; 将网格特征与分割特征展平, 线 性变换后送入可迭代的独立的层正则化模块中 融合; 用额外的跨层残差连接结合来自可迭代的 独立的层正则化模块中的两种特征和当前编码 后的特征, 送入解码器中, 解码器以自回归的方 式生成图像描述; 在所有的多头注 意力模块中加 入额外的残差连接。 提出一个双信息流模型, 通 过引入分割特征作为另一条视觉信息源增强视 觉信息对模 型输出预测贡献程度。 增强模型预测 对视觉信息的依赖程度, 使 得每个词预测更集中 于视觉内容。 权利要求书1页 说明书7页 附图4页 CN 115049844 A 2022.09.13 CN 115049844 A 1.一种增强视 觉信息流的图像描述 生成方法, 其特 征在于包括以下步骤: 1)给定一张图片, 使用Faster ‑RCNN提取网格特 征作为这张图片的网格特 征表示; 2)对步骤1)中的图片使用一个全景分割网络提取分割图, 并将该分割图转换成二值图 作为这张图片的分割特 征表示; 3)分别将网格特征与分割特征展平, 分别经过一次线性变换后, 送入到可迭代的独立 的层正则化模块中 融合; 5)将融合后的特征用transformer编码器进行编码, 用额外 的跨层残差连接结合来自 可迭代的独立的层正则化模块中的两种 特征和当前编码后的特征, 送入解码器中, 解码器 以自回归的方式生成图像描述; 6)在所有的多头注意力模块中加入额外的残差连接 。 2.如权利要求1所述一种增强视觉信息流的图像描述生成方法, 其特征在于在步骤1) 中, 所述使用Faster ‑RCNN提取网格特 征, 不需要生成候选区域, 以提高特 征提取速度。 3.如权利要求1所述一种增强视觉信息流的图像描述生成方法, 其特征在于在步骤2) 中, 所述分割特 征提取后, 可作为 一种高级语义 提示用来补充原网格特 征。 4.如权利要求1所述一种增强视觉信息流的图像描述生成方法, 其特征在于在步骤3) 中, 所述可迭代的独立的层正则化模块对两种 特征进行融合时, 采用共享的注意力层和前 馈网络, 以及采用私有的和共有的层正则化, 并且整个模块可迭代计算。 5.如权利要求1所述一种增强视觉信息流的图像描述生成方法, 其特征在于在步骤5) 中, 所述跨层残差连接用于使两种视 觉信息能够直接进入到解码器中。 6.如权利要求1所述一种增强视觉信息流的图像描述生成方法, 其特征在于在步骤6) 中, 所述在所有的多头注意力模块中加入额外的残差连接, 用于保留被多头注意力模块过 滤的信息 。权 利 要 求 书 1/1 页 2 CN 115049844 A 2一种增强视觉信息流的图像描述生成方 法 技术领域 [0001]本发明涉及人工智能领域中的视觉和语言多模态任务, 具体是涉及对给定图像中 视觉内容进行建模并用自然语言描述出来的一种增强视 觉信息流的图像描述 生成方法。 背景技术 [0002]图像描述是基于给定图像生成自然语言描述的任务, 需要一个模型来从多个方面 理解给定的图像, 包括识别对象、 动作以及关系, 为该图像生成语言描述。 将大量的视觉信 息压缩为描述性语言对于机器来说非常困难, 因此是人工智能领域研究的一个重要的挑 战。 同时, 图像描述 也启发很多计算机 视觉和自然语言处 理相关的研究。 [0003]随着神经机器翻译的发展, 编码器解码器框架也被广泛应用于图像字幕任务中。 编码器用离线CNN网络提取的一组视觉特征(如网格特征[1])作为输入, 进一步编码到视觉 语言空间。 然后, 解码 器使用编 码器提供的视觉信息和部 分生成的字幕预测下一个单词。 这 种结构只使用一个分支网络来 提取和过 滤视觉信息, 被称之为单信息流(SIF)网络 。 [0004]大多数现有方法[2][3][4]都遵循SIF范式构建图像描述网络。 有一个主要缺点: 来自 视觉特征提取器的视觉信息不足, 且有时还不准确。 尽管在特征提取器上 的研究已经取得 很大进展[5][6], 但关键的视觉信息如动作和深度信息, 即使在使用强大的视觉语言预训练 模型的情况下[7], 仍然可能被忽略。 上述缺点导致解码 器的视觉信息流不 足, 迫使解码 器过 度依赖部分生成的字幕来预测其余单词, 以确保生成的描述的流畅性。 这个问题最终使生 成的描述与实际的视 觉内容无关。 [0005]为了克服这些缺点, 最近的报道[5][8][9][10]引入一些高级视觉提示, 比如概念, 来 补充视觉信息。 然而, 由于语义不一致[11]和空间错位 的问题, 需要额外的融合模块将这些 线索与视 觉特征对齐, 这是很低效的且它 们很难与采用网格特 征的图像描述模型相结合。 [0006]参考文献: [0007][1]Huaizu  Jiang,Ishan  Misra,Marcus  Rohrbach,Erik  LearnedMiller,and   Xinlei Chen.In defense of grid features  for visual question  answering.In   Proceedings  of the IEEE/CVF  Conference  on Computer  Vision and Pattern  Recognition,pages 10267–10276,2020.1,3,5 。 [0008][2]Marcella  Cornia,Matteo  Stefanini,Lorenzo  Baraldi,and  Rita  Cucchiara.Meshed ‑memory transformer  for image captioning.In  Proceedings  ofthe  IEEE/CVF  Conference  on Computer  Vision and Pattern Recognition,pages  10578– 10587,2020.1,2,3,5,8。 [0009][3]Lun Huang,Wenmin  Wang,Jie  Chen,and  XiaoYong  Wei.Attention  on  attention  for image captioning.In  Proceedings  of the IEEE/CVF  International   Conference on Computer Vision,pages 4634–4643,2019.1,2,3,5,8。 [0010][4]Yingwei  Pan,Ting  Yao,Yehao  Li,and Tao Mei.X‑linearattention   networks  for image captioning.In  Proceedings  ofthe IEEE/CVF  Conference  on 说 明 书 1/7 页 3 CN 115049844 A 3

.PDF文档 专利 一种增强视觉信息流的图像描述生成方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种增强视觉信息流的图像描述生成方法 第 1 页 专利 一种增强视觉信息流的图像描述生成方法 第 2 页 专利 一种增强视觉信息流的图像描述生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:27:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。