全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 20221017457 7.9 (22)申请日 2022.02.25 (65)同一申请的已公布的文献号 申请公布号 CN 114239760 A (43)申请公布日 2022.03.25 (73)专利权人 苏州浪潮智能科技有限公司 地址 215000 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 申冲 李峰  (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 张琳琳 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) 审查员 江汉琼 (54)发明名称 多模态模型训练以及图像识别方法、 装置、 电子设备 (57)摘要 本发明揭示了一种多模态模型训练以及 图 像识别方法、 装置、 电子设备, 涉及图像识别领 域。 该方法包括: 获取样本图像以及样本图像对 应的文字 特征向量; 将样本图像输入至初始多模 态模型的特征提取网络, 生 成样本图像对应的 图 像特征向量。 其中特征提取网络用于对样本图像 进行编码, 并根据待生成特征与已生成特征之间 的关联关系生成图像特征向量; 将文字特征向量 以及图像特征向量输入至初始多模态模型的变 换器结构中, 输出样本图像对应的候选文字; 根 据文字特征向量对应的目标文字以及候选文字, 更新初始多模态模型的参数, 以确定目标多模态 模型。 采用该方法可以保证生 成的图像特征向量 的准确性, 进而使得图像在生 成的过程中局部感 受野不会发生破坏。 权利要求书2页 说明书12页 附图9页 CN 114239760 B 2022.05.20 CN 114239760 B 1.一种多模态模型训练方法, 其特 征在于, 所述方法包括: 获取样本图像以及所述样本图像对应的文字特 征向量; 将所述样本图像输入至初始多模态模型的特征提取网络, 生成所述样本图像对应的图 像特征向量, 所述特征提取网络用于对所述样本图像进行编码, 并根据待生成特征与已生 成特征之间的关联关系生成所述图像特征向量, 其中, 所述根据待生成特征与已生成特征 之间的关联关系生成所述图像特征向量, 包括: 获取与所述待生成特征在预设范围内的目 标已生成特征; 根据所述待生成特征与对应的所述 目标已生成特征之间的位置关系, 确定 各所述待生成特征与所述目标已生成特征之间的依赖关系; 根据各所述待生成特征与所述 目标已生成特 征之间的依赖关系, 按照特 征生成顺序, 生成所述图像特 征向量; 将所述文字特征向量以及所述图像特征向量输入至所述初始多模态模型的变换器结 构中, 输出 所述样本图像对应的候选文字; 根据所述文字特征向量对应的目标文字以及所述候选文字, 更新所述初始多模态模型 的参数, 以确定目标多模态模型。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述样本图像输入至初始多模态模 型的特征提取网络, 生成所述样本图像对应的图像特 征向量, 包括: 获取所述样本图像对应的特 征生成顺序; 根据各所述待生成特征与 所述已生成特征之间的关联关系以及所述特征生成顺序, 生 成所述图像特 征向量。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述待生成特征与对应的所述目 标已生成特征之间的位置关系, 确定各所述待生成特征与所述目标已生成特征之 间的依赖 关系, 包括: 针对各所述待生成特征, 根据 所述待生成特征与对应的所述目标已生成特征之间的位 置关系, 确定所述待生成特 征与对应的所述目标已生成特 征之间的距离; 根据所述待生成特征与对应的所述目标已生成特征之间的距离, 确定各所述目标已生 成特征相对于所述待生成特 征的依赖 权重。 4.根据权利要求3所述的方法, 其特征在于, 所述根据各所述待生成特征与 所述目标已 生成特征之间的依赖关系, 按照所述特 征生成顺序, 生成所述图像特 征向量, 包括: 根据各所述目标已生成特征相对于所述待生成特征的依赖权重, 确定各所述待生成特 征; 根据各所述待生成特 征, 按照所述特 征生成顺序, 生成所述图像特 征向量。 5.一种图像识别方法, 其特 征在于, 所述方法包括: 获取待识别的目标图像; 将所述目标图像输入至目标多模态模型, 输出所述目标图像对应的文字; 所述目标多 模态模型根据权利要求1 ‑4任一所述的多模态模型训练方法得到 。 6.一种多模态模型训练装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取样本图像以及所述样本图像对应的文字特 征向量; 生成模块, 用于将所述样本 图像输入至初始多模态模型的特征提取网络, 生成所述样 本图像对应的图像特征向量, 所述特征提取网络用于对所述样本图像进行编码, 并根据待 生成特征与已生成特征之间的关联关系生成所述图像特征向量, 其中, 所述根据待生成特权 利 要 求 书 1/2 页 2 CN 114239760 B 2征与已生成特征之间的关联关系生成所述图像特征向量, 包括: 获取与所述待生成特征在 预设范围内的目标已生成特征; 根据所述待生成特征与对应的所述目标已生成特征之 间的 位置关系, 确定各所述待生成特征与所述 目标已生成特征之间的依赖关系; 根据各所述待 生成特征与所述目标已生成特征之间的依赖关系, 按照特征生成顺序, 生成所述图像特征 向量; 第一输出模块, 用于将所述文字特征向量以及所述图像特征向量输入至所述初始多模 态模型的变换器结构中, 输出 所述样本图像对应的候选文字; 更新模块, 用于根据所述文字特征向量对应的目标文字以及所述候选文字, 更新所述 初始多模态模型的参数, 以确定目标多模态模型。 7.一种图像识别装置, 其特 征在于, 所述装置包括: 第二获取模块, 用于获取待识别的目标图像; 第二输出模块, 用于将所述目标图像输入至目标多模态模型, 输出所述目标图像对应 的文字; 所述目标多模态模型根据权利要求1 ‑4任一所述的多模态模型训练方法得到 。 8.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机指 令, 所述处理器通过执行所述计算机指 令, 从而执行权利要求 1‑4中任一项 所述的多模态模 型训练方法以及权利要求5中所述的图像识别方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使计算机执行权利要求1 ‑4中任一项所述的多模态模型训练方法 以及权利要求5中所述的图像识别方法。权 利 要 求 书 2/2 页 3 CN 114239760 B 3

.PDF文档 专利 多模态模型训练以及图像识别方法、装置、电子设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多模态模型训练以及图像识别方法、装置、电子设备 第 1 页 专利 多模态模型训练以及图像识别方法、装置、电子设备 第 2 页 专利 多模态模型训练以及图像识别方法、装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。