专利跨模态检索的视觉位置识别方法、存储介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210993635.0 (22)申请日 2022.08.18 (71)申请人厦门大学地址 361005 福建省厦门市思明南路42 2号 (72)发明人黄锐　苏松志　 (74)专利代理机构厦门原创专利事务所(普通合伙) 35101 专利代理师闫英敏 (51)Int.Cl. G06T 7/73(2017.01) G06V 10/42(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/29(2019.01)G06F 16/587(2019.01) (54)发明名称跨模态检索的视觉位置识别方法、存储介质和电子设备 (57)摘要本发明提供了一种跨模态检索的视觉位置识别方法、存储介质和电子设备，所述方法包括：以离线方式一次性构建3D点云地图数据库，将数据库中密集的点云表示转换为轻量级结构形式的点云，并利用注意力机制为轻量级点云融合上下文信息，以得到3D点云地图数据库的全局特征；以在线方式实时获得待查询图像，通过轻量型图像骨干网络提取待查询的2D图像的全局特征；计算3D点云地图数据库的全局特征和2D图像的全局特征的欧氏距离，并建立两者的对应关系。而后可以通过2D待查询图像的特征去实时检索以轻量级结构表示的3D点云数据库特征，以获得与待查询图像处于同一地理位置的点云图，能够快速地提取查询图像的特征信息。权利要求书2页说明书8页附图4页 CN 115457125 A 2022.12.09 CN 115457125 A 1.一种跨模态检索的视觉位置识别方法，其特征在于，所述方法包括以下步骤： S1：在以离线方式构建3D点云地图数据库时，将密集的点云压缩成第一轻量级结构点云； S2：将所述第一轻量级结构点云输入到旋转学习网络，生成第二轻量级结构点云； S3：将所述第二轻量级结构点云输入到注意力特征处理模块，通过所述注意力特征处理模块利用注意力机制为所述第二轻量级结构点云融合上下文信息，得到带有注意力权重的第三轻量级结构点云； S4：通过池化层对所述第三轻量级结构点云进行聚合，以得到3D点云地图数据库的全局特征； S5：以在线方式获得待查询图像，并通过轻量型图像骨干网络提取所述待查询图像的全局特征，将所述待查询图像的全局特征输入到池化层以聚合成2D图像全局特征； S6：计算所述2D图像的全局特征与所述3D点云地图数据库的全局特征之间的欧几里得距离，进行两者的特征匹配并建立2D图像与3D点云的对应关系。 2.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，所述第一轻量级结构点云包括正态分布变换NDT形式的点云；所述将密集的点云压缩成第一轻量级结构点云包括：根据以下公式将密集的点云压缩成所述正态分布变换NDT形式的点云：其中， μ表示数学期望， σ 表示方差， n表示进行正态分布变换的3D点个数， Xk表示在正态分布变换的第k个3D点。 3.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，在步骤S2中，旋转学习网络根据以下公式生成第二轻量级结构点云：其中， T3×3表示根据旋转学习网络生成的3 ×3大小的旋转矩阵。 4.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，所述注意力特征处理模块包括多个串联的注意力编码器，在所述注意力特征处理模块的头部和尾部各有一个带有跳跃连接的共享全连接层；每个所述注意力编码器被配置为：使用多头自注意力层计算权重，得到带有注意力权重的正态分布变换的3D点，并将得到的正态分布变换的3D点输入到前馈网络中，而后进行归一化处理。 5.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，步骤S4之后还可以包括步骤S41：将步骤S4中得到的3D点云地图数据库的全局特征输入至多层感知器进行处理，得到大小一致的3D点云全局特征。 6.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，所述方法包括：根据所述2D图像和3D点云地图数据库中正负样本以及随机采样样本形成损失函数，通过所述损失函数对视觉位置识别网络参数进行更新；所述对视觉位置识别网络参数进行更新包括：权　利　要　求　书 1/2 页 2 CN 115457125 A 2对所述旋转学习网络进行参数更新；和/或对所述注意力特征处理模块进行参数更新；和/或对所述轻量型图像骨干网络进行参数更新；和/或对所述池化层进行参数更新。 7.如权利要求6所述的跨模态检索的视觉位置识别方法，其特征在于，所述损失函数为四元组损失函数，所述四元组损失函数的公式如下：其中， ξq表示查询图像的全局特征， ξp表示点云数据库中正样本的全局特征， ξn表示点云数据库中负样本的全局特征，表示在查询图像和点云数据库中随机采样的全局特征，且与 ξq， ξp和 ξn都不同， d()表示欧几里得距离， H()表示合页损失函数， α 和β 表示边距常量。 8.如权利要求1所述的跨模态检索的视觉位置识别方法，其特征在于，所述方法包括：从所述3D点云地图数据库中检索出与所述待查询图像对应的点云图；以及对所述待查询图像的全局特征和所述3D点云地图数据库中正负样本的全局特征进行训练学习，以提升基于所述待查询图像实时检索出的所述3D点云地图数据库的准确率；所述待查询图像为2D图像。 9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现如权利要求1至8任一项所述的方法。 10.一种电子设备，其特征在于，包括：存储介质，为如权利要求9所述的存储介质；处理器，与所述存储介质电连接，用于执行所述存储介质存储的计算机程序以实现如权利要求1至8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115457125 A 3

专利 跨模态检索的视觉位置识别方法、存储介质和电子设备

专利跨模态检索的视觉位置识别方法、存储介质和电子设备