全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210993635.0 (22)申请日 2022.08.18 (71)申请人 厦门大学 地址 361005 福建省厦门市思明南路42 2号 (72)发明人 黄锐 苏松志  (74)专利代理 机构 厦门原创专利事务所(普通 合伙) 35101 专利代理师 闫英敏 (51)Int.Cl. G06T 7/73(2017.01) G06V 10/42(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/29(2019.01)G06F 16/587(2019.01) (54)发明名称 跨模态检索的视觉位置识别方法、 存储介质 和电子设备 (57)摘要 本发明提供了一种跨模态检索的视觉位置 识别方法、 存储介质和电子设备, 所述方法包括: 以离线方式一次性构建3D点云地图数据库, 将数 据库中密集的点云表示转换为轻量级结构形式 的点云, 并利用注意力机制为轻量级点云融合上 下文信息, 以得到3D点云地图数据库的全局特 征; 以在线方式实时获得待查询图像, 通过轻量 型图像骨干网络提取待查询的2D图像的全局特 征; 计算3D点 云地图数据库的全局特征和2D图像 的全局特征的欧氏距离, 并建立两者的对应关 系。 而后可以通过2D待查询图像的特征去实时检 索以轻量级结构表示的3D点云数据库特征, 以获 得与待查询图像处于同一地理位置的点云图, 能 够快速地 提取查询图像的特 征信息。 权利要求书2页 说明书8页 附图4页 CN 115457125 A 2022.12.09 CN 115457125 A 1.一种跨模态检索的视 觉位置识别方法, 其特 征在于, 所述方法包括以下步骤: S1: 在以离线方式构建3D点云地图数据库 时, 将密集的点云压缩成第一轻量级结构点 云; S2: 将所述第一轻量级结构点云输入到 旋转学习网络, 生成第二轻量级结构点云; S3: 将所述第二轻量级结构点云输入到注意力特征处理模块, 通过所述注意力特征处 理模块利用注意力机制为所述第二轻量级 结构点云融合上下文信息, 得到带有注意力权重 的第三轻量级结构点云; S4: 通过池化层对所述第三轻量级结构点云进行聚合, 以得到3D点云地 图数据库的全 局特征; S5: 以在线方式获得待查询图像, 并通过轻量型图像骨干网络提取所述待查询图像的 全局特征, 将所述待查询图像的全局特 征输入到池化层以聚合成2D图像全局特 征; S6: 计算所述2D图像的全局特征与所述3D点云地图数据库的全局特征之间的欧几里得 距离, 进行两者的特 征匹配并建立2D图像与3D点云的对应关系。 2.如权利要求1所述的跨模态检索的视觉位置识别方法, 其特征在于, 所述第 一轻量级 结构点云包括 正态分布变换NDT形式的点云; 所述将密集的点云压缩成第一轻量级结构点云包括: 根据以下公式将密集的点云压缩成所述 正态分布变换NDT形式的点云: 其中, μ表示数学期望, σ 表示方差, n表示进行正态分布变换的3D点个数, Xk表示在正态 分布变换的第k个3D点。 3.如权利要求1所述的跨模态检索的视觉位置识别方法, 其特征在于, 在步骤S2中, 旋 转学习网络根据以下公式生成第二轻量级结构点云: 其中, T3×3表示根据旋转学习网络生成的3 ×3大小的旋转矩阵。 4.如权利要求1所述的跨模态检索的视觉位置识别方法, 其特征在于, 所述注意力特征 处理模块包括多个串联的注意力编 码器, 在所述注意力特征处理模块的头部和尾部各有一 个带有跳跃 连接的共享全连接层; 每个所述注意力编码器被配置为: 使用多头自注意力层计算权重, 得到带有注意力权 重的正态分布变换的3D点, 并将得到的正态分布变换的3D点输入到前馈网络中, 而后进行 归一化处理。 5.如权利要求1所述的跨模态检索的视觉位置识别方法, 其特征在于, 步骤S4之后还可 以包括步骤S41: 将步骤S4中得到的3D点云地图数据库的全局特征输入至多层感知器进行 处理, 得到大小一 致的3D点云全局特 征。 6.如权利要求1所述的跨模态检索的视 觉位置识别方法, 其特 征在于, 所述方法包括: 根据所述2D图像和3D点云地图数据库中正负样本以及随机采样样本形成损失函数, 通 过所述损失函数对视 觉位置识别网络参数进行 更新; 所述对视 觉位置识别网络参数进行 更新包括:权 利 要 求 书 1/2 页 2 CN 115457125 A 2对所述旋转学习网络进行参数 更新; 和/或对所述注意力特 征处理模块进行参数 更新; 和/或对所述轻量型图像骨干网络进行参数 更新; 和/或对所述池化层进行参数 更新。 7.如权利要求6所述的跨模态检索的视觉位置识别方法, 其特征在于, 所述损失函数为 四元组损失函数, 所述四元组损失函数的公式如下: 其中, ξq表示查询图像的全局特征, ξp表示点云数据库中正样本的全局特征, ξn表示点 云数据库中负样本的全局特征, 表示在查询图像和点云数据库中随机采样的全局特征, 且与 ξq, ξp和 ξn都不同, d()表示欧几里 得距离, H()表示 合页损失函数, α 和β 表示 边距常量。 8.如权利要求1所述的跨模态检索的视 觉位置识别方法, 其特 征在于, 所述方法包括: 从所述3D点云地图数据库中检索出与所述待查询图像对应的点云图; 以及对所述待查询图像的全局特征和所述3D点云地图数据库中正负样本的全局特征 进行训练学习, 以提升基于所述待查询图像实时检索出的所述3D点云地图数据库的准确 率; 所述待查询图像为2D图像。 9.一种存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 所述计算机程序被 执行时实现如权利要求1至8任一项所述的方法。 10.一种电子设备, 其特 征在于, 包括: 存储介质, 为如权利要求9所述的存 储介质; 处理器, 与所述存储介质电连接, 用于执行所述存储介质存储的计算机程序以实现如 权利要求1至8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115457125 A 3

.PDF文档 专利 跨模态检索的视觉位置识别方法、存储介质和电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 跨模态检索的视觉位置识别方法、存储介质和电子设备 第 1 页 专利 跨模态检索的视觉位置识别方法、存储介质和电子设备 第 2 页 专利 跨模态检索的视觉位置识别方法、存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:08:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。