全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210028089.7 (22)申请日 2022.01.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新  (74)专利代理 机构 深圳市明日今典知识产权代 理事务所(普通 合伙) 44343 代理人 王杰辉 陈秋波 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/764(2022.01) G06V 30/10(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于人工智能的图像描述生成方法、 装置、 设备及介质 (57)摘要 本申请涉及人工智能技术领域, 揭示了一种 基于人工智 能的图像描述生成方法、 装置、 设备 及介质, 其中方法包括: 获取待描述图像; 根据所 述待描述图像进行文本区域检测; 根据所述待描 述图像, 对每个所述文本区域进行文本识别, 得 到待分析文本; 根据所述待描述图像进行目标特 征提取; 基于多模态特征融合的方法, 根据所述 待描述图像、 各个所述待分析文本和各个所述目 标特征进行图像描述生成, 得到图像描述结果。 通过基于多模态特征融合的方法将理解的图像 的文本联系环 境进行理解以生 成图像描述, 从而 实现将图像的丰富信息用语言详尽完整地表达 出来, 提高了图像描述的准确性。 权利要求书3页 说明书13页 附图2页 CN 114387430 A 2022.04.22 CN 114387430 A 1.一种基于人工智能的图像描述 生成方法, 其特 征在于, 所述方法包括: 获取待描述图像; 根据所述待 描述图像进行文本区域检测; 根据所述待 描述图像, 对每 个所述文本区域进行文本识别, 得到待分析文本; 根据所述待 描述图像进行目标 特征提取; 基于多模态特征融合的方法, 根据所述待描述图像、 各个所述待分析文本和各个所述 目标特征进行图像描述 生成, 得到图像描述结果。 2.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述根据 所 述待描述图像进行文本区域检测的步骤, 包括: 对所述待 描述图像进行 下采样处 理, 得到下采样特 征; 对所述下采样特 征进行上采样处 理, 得到上采样特 征; 对所述上采样特 征进行级联处 理, 得到待分析 特征层; 根据所述待分析 特征层进行文本概 率图预测, 得到目标文本概 率图; 根据所述待分析 特征层进行动态阈值图预测, 得到目标动态阈值图; 根据所述目标文本概率图和所述目标动态阈值图进行可微分二值化计算, 得到可微分 二值化图; 根据所述可微分二 值化图进行 所述文本区域 生成。 3.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述根据 所 述待描述图像, 对每 个所述文本区域进行文本识别, 得到待分析文本的步骤, 包括: 根据每个所述文本区域, 从所述待 描述图像中提取图像区块, 得到文本图像区块; 采用基于卷积神经网络得到的模型, 对每个所述文本图像区块进行预设高度的特征图 提取, 得到特 征图集; 将每个所述特 征图集中的各个所述特 征图按位置进行排序, 得到时序特 征图集; 将每个所述 时序特征图集输入基于循环神经网络得到的模型进行文本识别, 得到每个 所述文本区域对应的所述待分析文本, 其中, 采用预设标签字典中的各个预设标签作为所 述基于循环神经网络得到的模型 的嵌入层的输出维度的预测标签, 所述预设标签包括: 文 本和占位符。 4.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述根据 所 述待描述图像进行目标 特征提取的步骤, 包括: 对所述待 描述图像进行图像特 征图提取, 得到待分析图像特 征图; 采用基于区域 生成网络得到的模型, 根据所述待 描述图像进行目标候选区域 提取; 根据每个所述目标候选区域, 从所述待分析图像特征图中提取图像特征, 得到目标外 观特征; 根据每个所述区域图像特征进行分类预测, 得到分类预测结果, 其中, 分类预测的分类 标签包括: 多个物体标签和一个背景 标签; 根据每个所述目标外观特 征进行位置回归处 理, 得到目标位置信息; 采用基于全卷积网络得到的模型, 根据每个所述目标外观特征进行掩膜图生成, 得到 目标掩膜图; 将同一所述目标候选区域对应的所述目标外观特征、 所述目标位置信 息和所述目标掩权 利 要 求 书 1/3 页 2 CN 114387430 A 2膜图作为 一个所述目标 特征。 5.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述基于多 模态特征融合的方法, 根据所述待描述图像、 各个所述待分析文本和各个所述目标特征进 行图像描述 生成, 得到图像描述结果的步骤, 包括: 根据每个所述目标 特征进行特征融合, 得到第一融合特 征; 根据所述待 描述图像, 对每 个所述待分析文本进行 特征融合, 得到第二融合特 征; 采用基于迭代的Transformer得到的模型, 根据各个所述第一融合特征和各个所述第 二融合特 征进行词预测, 得到词预测结果; 采用基于动态指针网络得到的模型, 根据 所述词预测结果和各个所述待分析文本进行 图像描述 生成, 得到所述图像描述结果。 6.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述根据每 个所述目标 特征进行特征融合, 得到第一融合特 征的步骤, 包括: 获取一个所述目标 特征作为待处 理目标特征; 对所述待处 理目标特征中的目标位置信息进行编码, 得到目标位置编码; 对所述待处理目标特征中的目标外观特征和所述目标位置编码进行线性变化边以映 射到第一预设维数的向量嵌入空间, 得到所述待处 理目标特征对应的所述第一融合特 征; 重复执行所述获取一个所述目标特征作为待处理目标特征的步骤, 直至完成所述目标 特征的获取。 7.根据权利要求1所述的基于人工智能的图像描述生成方法, 其特征在于, 所述根据 所 述待描述图像, 对每 个所述待分析文本进行 特征融合, 得到第二融合特 征的步骤, 包括: 获取任一个所述待分析文本作为待处 理文本; 根据所述待处 理文本进行第二预设维数的词向量编码, 得到文本块词向量; 根据所述待处 理文本, 从所述待 描述图像中进行图像特 征提取, 得到文本块图像特 征; 对所述待处 理文本进行第三预设维数的文本编码, 得到文本块编码特 征; 根据所述待 描述图像, 对所述待处 理文本进行位置信息确定, 得到文本位置信息; 对所述文本位置信息进行编码, 得到文本位置编码; 对所述文本块词向量、 所述文本块图像特征、 所述文本块编码特征和所述文本位置编 码进行线性变化边以映射到第四预设维数的向量嵌入空间, 得到所述待处理文本对应的所 述第二融合特 征; 重复执行所述获取任一个所述待分析文本作为待处理文本的步骤, 直至完成所述待分 析文本的获取。 8.一种基于人工智能的图像描述 生成装置, 其特 征在于, 所述装置包括: 图像获取模块, 用于获取待 描述图像; 文本区域检测模块, 用于根据所述待 描述图像进行文本区域检测; 文本识别模块, 用于根据 所述待描述图像, 对每个所述文本区域进行文本识别, 得到待 分析文本; 目标特征提取模块, 用于根据所述待 描述图像进行目标 特征提取; 图像描述生成模块, 用于基于多模态特征融合的方法, 根据 所述待描述图像、 各个所述 待分析文本和各个所述目标 特征进行图像描述 生成, 得到图像描述结果。权 利 要 求 书 2/3 页 3 CN 114387430 A 3

.PDF文档 专利 基于人工智能的图像描述生成方法、装置、设备及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于人工智能的图像描述生成方法、装置、设备及介质 第 1 页 专利 基于人工智能的图像描述生成方法、装置、设备及介质 第 2 页 专利 基于人工智能的图像描述生成方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:16:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。