全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210221464.X (22)申请日 2022.03.09 (65)同一申请的已公布的文献号 申请公布号 CN 114357231 A (43)申请公布日 2022.04.15 (73)专利权人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 叶海涛 毛云青 李洁 王国梁  陈斌  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 薛文玲(51)Int.Cl. G06F 16/583(2019.01) G06F 16/532(2019.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (56)对比文件 CN 112069399 A,2020.12.1 1 WO 2020242383 A1,2020.12.0 3 审查员 王志超 (54)发明名称 一种基于文本的图像检索方法、 装置及可读 存储介质 (57)摘要 本申请提出了一种基于文本的图像检索方 法、 装置及可读存储介质, 包括: 获取检索文本和 多个候选图像的初始图像特征; 将检索文本转换 为数字矩阵, 根据数字矩阵提取初始文本特征, 将数字矩 阵与初始文本特征进行残差连接获得 增强文本 特征; 将增强文本特征分别融合每一初 始图像特征得到对应的第一特征矩阵, 将初始文 本特征分别融合每一初始 图像特征得到对应的 第二特征矩阵; 将融合了相同初始图像特征的第 二特征矩 阵与第一特征矩 阵同时输入特征交流 网络得到对应的交流特征矩阵; 将所有交流特征 矩阵输入头部预测网络以获取目标图像。 该方法 使两种模态的特征进行有效信息交流和关联训 练, 提高模型的泛化能力, 增强文本与图像之间 的关联性, 提交检索精度。 权利要求书2页 说明书9页 附图3页 CN 114357231 B 2022.06.28 CN 114357231 B 1.一种基于文本的图像 检索方法, 其特 征在于, 包括以下步骤: 获取检索文本和多个候选图像的初始图像特 征; 将所述检索文本转换为数字矩阵, 根据所述数字矩阵提取初始文本特征, 将所述数字 矩阵与所述初始文本特 征进行残差连接获得增强文本特 征; 将所述增强文本特征分别融合每一所述初始图像特征得到对应的第 一特征矩阵, 将所 述初始文本特 征分别融合每一所述初始图像特 征得到对应的第二特 征矩阵; 将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络 得到对应的交流特征矩阵, 其中所述特征 交流网络包括并行的文本处理网络和图像处理网 络, 所述文本处理网络和所述图像处理网络包括数量相同的transformer层, 交换所述文本 处理网络和所述图像处理网络对应的每一transformer层中的查询特征, 所述查询特征由 每一所述t ransformer层的输入进行线性变化得到; 将所有所述交流特 征矩阵输入头 部预测网络以获取至少一目标图像。 2.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, 获取每一所述候选图 像的初始图像特征的方法包括: 采用标注过的训练 图像对YOLOv5模型进行预训练, 将每一 所述候选图像输入预训练后的YOLOv5模型获得对应的初始图像特 征。 3.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, “将所述检索文本转 换为数字矩阵, 根据所述数字矩阵提取初始文本特征 ”包括: 将所述检索 文本输入A lbert预 训练模型, 通过所述A lbert预训练模 型的编译器转换为数字矩阵后再根据所述数字矩阵提 取初始文本特 征。 4.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, “将融合了相同初始 图像特征 的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩 阵”包括: 所述第一特征矩阵输入文本处理网络中的transformer层 进行线性变化得到每个 词的词查询特征、 词关键特征、 词值特征; 所述第二特征矩阵输入图像处理网络的 transformer层进行线性变化得到每个像素的像素查询特征、 像素关键特征、 像素值特征; 交换对应同一层transformer层进 行所述线性变化  得到的词查询特征和像素查询特征; 将 待处理词的词查询特征和每一其余词的词关键特征进行线性变化得到对应每一其余词的 词相关度, 所述待处理词的词值特征和所有 所述词相关度相乘后求和得到所述待处理词的 词表达, 遍历获取每一所述待处理词的词表达得到初始特征交流矩阵, 转换所述初始特征 交流矩阵得到交流特 征数据。 5.根据权利要求4所述的基于文本的图像检索方法, 其特征在于, 将所述文本处理网络 中每一所述transformer层的输入分别进行第一线性变化、 第二线性变化、 第三线性变化得 到每个词的词查询特征、 词关键特征、 词值特征; 将所述图像处理网络中每一所述 transformer层的输入分别进 行第一线性变化、 第二线性变化、 第三线性变化得到每个图像 的图像查询特 征、 图像关键特 征、 图像值特 征。 6.根据权利要求4所述的基于文本的图像检索方法, 其特征在于, “转换所述初始特征 交流矩阵得到交流特征数据 ”包括: 将所述初始特征交流矩阵依次进 行残差连接、 归一化操 作、 全连接、 残差连接、 归一 化操作得到交流特 征矩阵。 7.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, “将所述数字矩阵与 所述初始文本特征进行残差连接获得增强文本特征 ”包括: 将所述初始文本特征输入卷积权 利 要 求 书 1/2 页 2 CN 114357231 B 2神经网络, 对所述初始文本特征进行升维或降维使所述初始文本特征与所述数字矩阵的大 小相同, 再将所述初始文本特征与所述数字矩阵相同位置的数值进行相加, 得到增强文本 特征。 8.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, “将所述增强文本特 征分别融合每一所述初始图像特征得到对应的第一特征矩阵 ”包括: 将所述增强文本特征 转换为一 维文本向量, 通过全连接层使所述一维文本向量与所述初始图像特征大小相同后 分别融合每一所述初始图像特 征得到对应的第一特 征矩阵。 9.根据权利要求1所述的基于文本的图像检索方法, 其特征在于, “将所述初始文本特 征分别融合每一所述初始图像特征得到对应的第二特征矩阵 ”包括: 将每一所述初始图像 特征转化为对应的一 维图像向量, 通过全连接层使每一所述一维图像向量与所述初始文本 特征大小相同后分别与所述初始文本特 征相融合得到对应的第二特 征矩阵。 10.一种基于文本的图像 检索装置, 其特 征在于, 包括以下模块: 获取模块, 用于获取检索文本和多个候选图像的初始图像特 征; 文本特征提取模块, 用于将所述检索文本转换为数字矩阵, 根据所述数字矩阵提取初 始文本特 征, 将所述数字矩阵与所述初始文本特 征进行残差连接获得增强文本特 征; 特征融合模块, 用于将所述增强文本特征分别融合每一所述初始图像特征得到对应的 第一特征矩阵, 将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征 矩阵; 特征交流模块, 用于将融合了相同初始图像特征的第 二特征矩阵与第 一特征矩阵同时 输入特征 交流网络得到对应的交流特征矩阵, 其中所述特征交流网络包括并行的文本处理 网络和图像处理网络, 所述文本处理网络和所述图像处理网络包括数量相同的 transformer层, 交换所述文本处理网络和所述图像处理网络对应的每一transformer层中 的查询特 征, 所述查询特征由每一所述t ransformer层的输入进行线性变化得到; 预测模块, 用于将所有所述交流特 征矩阵输入头 部预测网络以获取至少一目标图像。 11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1至9任一所述的基于文本的 图像检索方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1至9任一 项所述的基于文本的图像 检索方法。权 利 要 求 书 2/2 页 3 CN 114357231 B 3

.PDF文档 专利 一种基于文本的图像检索方法、装置及可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本的图像检索方法、装置及可读存储介质 第 1 页 专利 一种基于文本的图像检索方法、装置及可读存储介质 第 2 页 专利 一种基于文本的图像检索方法、装置及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:16:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。