专利基于人工智能的图像描述生成方法、装置、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210028089.7 (22)申请日 2022.01.11 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　陈又新　 (74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙) 44343 代理人王杰辉　陈秋波 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/764(2022.01) G06V 30/10(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于人工智能的图像描述生成方法、装置、设备及介质 (57)摘要本申请涉及人工智能技术领域，揭示了一种基于人工智能的图像描述生成方法、装置、设备及介质，其中方法包括：获取待描述图像；根据所述待描述图像进行文本区域检测；根据所述待描述图像，对每个所述文本区域进行文本识别，得到待分析文本；根据所述待描述图像进行目标特征提取；基于多模态特征融合的方法，根据所述待描述图像、各个所述待分析文本和各个所述目标特征进行图像描述生成，得到图像描述结果。通过基于多模态特征融合的方法将理解的图像的文本联系环境进行理解以生成图像描述，从而实现将图像的丰富信息用语言详尽完整地表达出来，提高了图像描述的准确性。权利要求书3页说明书13页附图2页 CN 114387430 A 2022.04.22 CN 114387430 A 1.一种基于人工智能的图像描述生成方法，其特征在于，所述方法包括：获取待描述图像；根据所述待描述图像进行文本区域检测；根据所述待描述图像，对每个所述文本区域进行文本识别，得到待分析文本；根据所述待描述图像进行目标特征提取；基于多模态特征融合的方法，根据所述待描述图像、各个所述待分析文本和各个所述目标特征进行图像描述生成，得到图像描述结果。 2.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述根据所述待描述图像进行文本区域检测的步骤，包括：对所述待描述图像进行下采样处理，得到下采样特征；对所述下采样特征进行上采样处理，得到上采样特征；对所述上采样特征进行级联处理，得到待分析特征层；根据所述待分析特征层进行文本概率图预测，得到目标文本概率图；根据所述待分析特征层进行动态阈值图预测，得到目标动态阈值图；根据所述目标文本概率图和所述目标动态阈值图进行可微分二值化计算，得到可微分二值化图；根据所述可微分二值化图进行所述文本区域生成。 3.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述根据所述待描述图像，对每个所述文本区域进行文本识别，得到待分析文本的步骤，包括：根据每个所述文本区域，从所述待描述图像中提取图像区块，得到文本图像区块；采用基于卷积神经网络得到的模型，对每个所述文本图像区块进行预设高度的特征图提取，得到特征图集；将每个所述特征图集中的各个所述特征图按位置进行排序，得到时序特征图集；将每个所述时序特征图集输入基于循环神经网络得到的模型进行文本识别，得到每个所述文本区域对应的所述待分析文本，其中，采用预设标签字典中的各个预设标签作为所述基于循环神经网络得到的模型的嵌入层的输出维度的预测标签，所述预设标签包括：文本和占位符。 4.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述根据所述待描述图像进行目标特征提取的步骤，包括：对所述待描述图像进行图像特征图提取，得到待分析图像特征图；采用基于区域生成网络得到的模型，根据所述待描述图像进行目标候选区域提取；根据每个所述目标候选区域，从所述待分析图像特征图中提取图像特征，得到目标外观特征；根据每个所述区域图像特征进行分类预测，得到分类预测结果，其中，分类预测的分类标签包括：多个物体标签和一个背景标签；根据每个所述目标外观特征进行位置回归处理，得到目标位置信息；采用基于全卷积网络得到的模型，根据每个所述目标外观特征进行掩膜图生成，得到目标掩膜图；将同一所述目标候选区域对应的所述目标外观特征、所述目标位置信息和所述目标掩权　利　要　求　书 1/3 页 2 CN 114387430 A 2膜图作为一个所述目标特征。 5.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述基于多模态特征融合的方法，根据所述待描述图像、各个所述待分析文本和各个所述目标特征进行图像描述生成，得到图像描述结果的步骤，包括：根据每个所述目标特征进行特征融合，得到第一融合特征；根据所述待描述图像，对每个所述待分析文本进行特征融合，得到第二融合特征；采用基于迭代的Transformer得到的模型，根据各个所述第一融合特征和各个所述第二融合特征进行词预测，得到词预测结果；采用基于动态指针网络得到的模型，根据所述词预测结果和各个所述待分析文本进行图像描述生成，得到所述图像描述结果。 6.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述根据每个所述目标特征进行特征融合，得到第一融合特征的步骤，包括：获取一个所述目标特征作为待处理目标特征；对所述待处理目标特征中的目标位置信息进行编码，得到目标位置编码；对所述待处理目标特征中的目标外观特征和所述目标位置编码进行线性变化边以映射到第一预设维数的向量嵌入空间，得到所述待处理目标特征对应的所述第一融合特征；重复执行所述获取一个所述目标特征作为待处理目标特征的步骤，直至完成所述目标特征的获取。 7.根据权利要求1所述的基于人工智能的图像描述生成方法，其特征在于，所述根据所述待描述图像，对每个所述待分析文本进行特征融合，得到第二融合特征的步骤，包括：获取任一个所述待分析文本作为待处理文本；根据所述待处理文本进行第二预设维数的词向量编码，得到文本块词向量；根据所述待处理文本，从所述待描述图像中进行图像特征提取，得到文本块图像特征；对所述待处理文本进行第三预设维数的文本编码，得到文本块编码特征；根据所述待描述图像，对所述待处理文本进行位置信息确定，得到文本位置信息；对所述文本位置信息进行编码，得到文本位置编码；对所述文本块词向量、所述文本块图像特征、所述文本块编码特征和所述文本位置编码进行线性变化边以映射到第四预设维数的向量嵌入空间，得到所述待处理文本对应的所述第二融合特征；重复执行所述获取任一个所述待分析文本作为待处理文本的步骤，直至完成所述待分析文本的获取。 8.一种基于人工智能的图像描述生成装置，其特征在于，所述装置包括：图像获取模块，用于获取待描述图像；文本区域检测模块，用于根据所述待描述图像进行文本区域检测；文本识别模块，用于根据所述待描述图像，对每个所述文本区域进行文本识别，得到待分析文本；目标特征提取模块，用于根据所述待描述图像进行目标特征提取；图像描述生成模块，用于基于多模态特征融合的方法，根据所述待描述图像、各个所述待分析文本和各个所述目标特征进行图像描述生成，得到图像描述结果。权　利　要　求　书 2/3 页 3 CN 114387430 A 3

专利 基于人工智能的图像描述生成方法、装置、设备及介质

专利基于人工智能的图像描述生成方法、装置、设备及介质