专利 一种基于混合注意力的相机定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210466169.0 (22)申请日 2022.04.29 (71)申请人西安理工大学地址 710048 陕西省西安市碑林区金花南路5号 (72)发明人宋霄罡　李宏娟　梁莉　黑新宏　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师徐瑶 (51)Int.Cl. G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于混合注意力的相机定位方法 (57)摘要本发明公开了一种基于混合注意力的相机定位方法，步骤1，构建基于非局部自注意力的相机定位的卷积神经网络；步骤2，将经步骤1建立的神经网络进行训练；步骤3，将经步骤2训练好的网络进行测试；经过测试，本发明在7Sc enes和 Oxford RobotCar数据集上定位精度得到明显提升。权利要求书2页说明书7页附图1页 CN 114820792 A 2022.07.29 CN 114820792 A 1.一种基于混合注意力的相机定位方法，其特征在于，具体按以下步骤实施：步骤1，构建基于非局部自注意力的相机定位的卷积神经网络；步骤2，将经步骤1建立的神经网络进行训练；步骤3，将经步骤2训练好的网络进行测试。 2.根据权利要求1所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 1的卷积神经网络包括特征编码模块、混合注意力模块和位姿回归模块三部分，具体按以下步骤实施：步骤1.1，图像输入网络，通过特征编码模块进行下采样提取特征；步骤1.2，经过通道注意力和非局部自注意力模块捕获特征图上的通道层面和空间层面的依赖关系，输出具有依赖关系的注意力权重图；步骤1.3，将计算得到的注意力权重输入位姿回归器用于回归相机位姿。 3.根据权利要求2所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 1.1具体按以下步骤实施：步骤1.1.1，输入RGB图像，将图片大小设置为256 ×256，即输入网络的图片尺寸为256 ×256×3；步骤1.1.2，对输入图像进行一次普通7 ×7卷积操作，图片大小变为128 ×128，通道数调整为64 通道，并进行批量归一化与Relu函数激活；步骤1.1.3，将步骤1.1.2中所得特征图传入残差卷积块进行16次残差卷积，卷积核为3 ×3，输出图片大小8 ×8，通道数为512的特征图；步骤1.1.4，将步骤1.1.3所得特征图进行平均池化和全连接操作，最后输出2048通道的特征图。 4.根据权利要求3所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 1.1.3中残差卷积块的构造为：首先通过3 ×3卷积进行通道扩张，并进行BN与Relu激活；然后通过3×3卷积进行特征提取，并进行BN与Relu激活。 5.根据权利要求2所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 1.2具体按以下步骤实施：步骤1.2.1，将特征提取模块所得到的特征图传入混合注意力模块，同时构建通道注意力和非局部自注意力；步骤1.2.2，将特征提取模块输出的特征图传入通道注意力模块，从特征通道层面统计图像的全局特征；步骤1.2.3，将步骤1.2.2输出的特征图传入非局部自注意力模块，捕获长范围图片特征的依赖性，最后，输出具有2048通道的特征图。 6.根据权利要求2或5所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤1.3具体按以下步骤实施：步骤1.3.1，将步骤1.2.3得到的2048维特征图输入位姿回归器中，构造多层感知机模块；步骤1.3.2，将特征图输入全连接层，得到1 ×1×2048大小的特征图；步骤1.3.3，将得到的特征图分别输入到两个全连接层，得到两个分别代表平移和旋转的三维特征向量；权　利　要　求　书 1/2 页 2 CN 114820792 A 2步骤1.3.4，将得到的两个三维向量进行叠加，最后得到一个六维的位姿向量。 7.根据权利要求1所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 2中网络训练的数据集分为室内数据集和室外数据集，室内数据集为7Scenes，室外数据集为Oxford RobotCar，具体按以下步骤实施：步骤2.1，加载数据集，初始化权重参数；步骤2.2，将数据集数据进行分割，将70％的图像用于训练， 3 0％的图像用于估计；步骤2.3，采用L1损失函数，每5个epoc h之后输出训练损失值；步骤2.4，初始学习率定为5e ‑5，训练采用学习率自动下降的方式；步骤2.5，训练到 600epoch后loss值不在下降，停止训练并保存模型。 8.根据权利要求7所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 2.2具体按以下步骤实施：首先将训练集按照预先设定的batch输入网络，然后将数据集里的图片resize为256像素，再将图像归一化使像素强度在( ‑1,1)范围之内，在Oxford RobotCar数据集上，将亮度、对比度和饱和度设置为0.7，色调设置为0.5 。 9.根据权利要求1所述的一种基于混合注意力的相机定位方法，其特征在于，所述步骤 3具体按以下步骤实施：步骤3.1，加载数据集中的测试图片，并设定相机位姿回归维数；步骤3.2，加载训练后的模型参数并读取测试数据集；步骤3.3，将数据集图像每一帧传入相机回归模型，对像素点进行回归预测；步骤3.4，计算回归位姿的平移和旋转误差。权　利　要　求　书 2/2 页 3 CN 114820792 A 3

专利 一种基于混合注意力的相机定位方法

专利一种基于混合注意力的相机定位方法