全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210151570.5 (22)申请日 2022.02.18 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 余威 王昆  (74)专利代理 机构 北京钲霖知识产权代理有限 公司 11722 专利代理师 李英艳 杨继成 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 30/19(2022.01) G06V 20/62(2022.01) G06F 16/29(2019.01)G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 多模态特征的融合方法、 装置、 设备、 介质及 产品 (57)摘要 本公开提供了一种多模态特征的融合方法、 装置、 设备、 介质及产品, 涉及图像处理技术领 域, 尤其涉及计算机视觉和深度学习技术领域。 具体实现方案为: 获取同一图像的多种模态特 征; 对所述多种模态特征中的每种模态特征进行 编码; 采用多头注意力机制, 对编码得到的所有 编码特征进行特征交叉融合, 得到多个初始融合 特征; 将所述多个初始融合特征再次进行融合, 得到目标融合特征。 本公开采用多头注意力机制 对多种模态特征的编码特征进行交叉融合, 使各 编码特征间能够进行充分的融合。 并对交叉融合 产生的多个初始融合特征进行再次融合, 最终得 到的目标融合特征能够准确的描 述图像中的POI 特征, 进而提高召回率。 权利要求书2页 说明书7页 附图3页 CN 114663733 A 2022.06.24 CN 114663733 A 1.一种多模态特 征的融合方法, 包括: 获取同一图像的多种模态特 征; 对所述多种模态特 征中的每种模态特 征进行编码; 采用多头注意力机制, 对编码得到的所有编码特征进行特征交叉融合, 得到多个初始 融合特征; 将所述多个初始融合特 征再次进行融合, 得到目标融合特 征。 2.根据权利要求1所述的方法, 其中, 所述采用多头注意力机制, 对编码得到的所有编 码特征进行特征交叉融合, 包括: 若模态特征的数量小于或等于预设数量, 则将编码得到的所有编码特征直接采用多头 注意力机制, 进行 特征交叉融合。 3.根据权利要求1所述的方法, 其中, 所述采用多头注意力机制, 对编码得到的所有编 码特征进行特征交叉融合, 包括: 若模态特征的数量大于预设数量, 则对模态特征进行编码得到的所有编码特征, 按照 所述预设数量进行组合; 将组合后得到的所有组合结果中的各组合结果, 分别采用多头注意力机制, 进行特征 交叉融合。 4.根据权利要求1 ‑3中任意一项所述的方法, 其中, 所述模态特 征包括: 图像特征, 文本特征, 图像中兴趣点POI坐标, 拍摄图像的拍摄角度, 拍摄图像的时间 和/或图像所在区域。 5.根据权利要求4所述的方法, 其中, 所述对所述多种模态特征中的每种 模态特征进行 编码, 包括: 若所述模态特征为P OI坐标, 则利用GeoHash对所述POI坐标进行向量编码, 并对编码得 到的向量进行向量升维; 基于向量升维后的编码向量, 对所述POI 坐标进行编码。 6.根据权利要求4所述的方法, 其中, 所述对所述多种模态特征中的每种 模态特征进行 编码, 包括: 若所述模态特征为除图像特征和POI坐标外的其他模态特征, 则利用word2Vec对所述 其他模态特 征进行编码。 7.根据权利要求1 ‑3中任意一项所述的方法, 其中, 所述将所述多个初始融合特征再次 进行融合, 得到目标融合特 征, 包括: 利用多层感知机对所述多个初始融合特 征进行再次融合, 得到目标融合特 征。 8.一种多模态特 征的融合装置, 包括: 获取单元, 用于获取同一图像的多种模态特 征; 编码单元, 用于对所述多种模态特 征中的每种模态特 征进行编码; 第一融合单元, 用于采用多头注意力机制, 对编码得到的所有编码特征进行特征交叉 融合, 得到多个初始融合特 征; 第二融合单 元, 用于将所述多个初始融合特 征再次进行融合, 得到目标融合特 征。 9.根据权利要求8所述的装置, 其中, 所述第一融合单 元用于: 若模态特征的数量小于或等于预设数量, 则将编码得到的所有编码特征直接采用多头权 利 要 求 书 1/2 页 2 CN 114663733 A 2注意力机制, 进行 特征交叉融合。 10.根据权利要求8所述的装置, 其中, 所述第一融合单 元还用于: 若模态特征的数量大于预设数量, 则对模态特征进行编码得到的所有编码特征, 按照 所述预设数量进行组合; 将组合后得到的所有组合结果中的各组合结果, 分别采用多头注意力机制, 进行特征 交叉融合。 11.根据权利要求8 ‑10中任意 一项所述的装置, 其中, 所述模态特 征包括: 图像特征, 文本特征, 图像中兴趣点POI坐标, 拍摄图像的拍摄角度, 拍摄图像的时间 和/或图像所在区域。 12.根据权利要求1 1所述的装置, 其中, 所述编码单 元, 用于: 若所述模态特征为P OI坐标, 则利用GeoHash对所述POI坐标进行向量编码, 并对编码得 到的向量进行向量升维; 基于向量升维后的编码向量, 对所述POI 坐标进行编码。 13.根据权利要求1 1所述的装置, 其中, 所述编码单 元, 用于: 若所述模态特征为除图像特征和POI坐标外的其他模态特征, 则利用word2Vec对所述 其他模态特 征进行编码。 14.根据权利要求8 ‑10中任意 一项所述的装置, 其中, 所述第二融合单 元, 用于: 利用多层感知机对所述多个初始融合特 征进行再次融合, 得到目标融合特 征。 15.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑7中任一项所述的方法。 16.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑7中任一项所述的方法。 17.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114663733 A 3

.PDF文档 专利 多模态特征的融合方法、装置、设备、介质及产品

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多模态特征的融合方法、装置、设备、介质及产品 第 1 页 专利 多模态特征的融合方法、装置、设备、介质及产品 第 2 页 专利 多模态特征的融合方法、装置、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。