专利基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210889746.7 (22)申请日 2022.07.27 (71)申请人北京大学地址 100871 北京市海淀区颐和园路5号 (72)发明人王勇涛　林志威　汤帜　 (74)专利代理机构北京万象新悦知识产权代理有限公司 1 1360 专利代理师贾晓玲 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/776(2022.01) G06V 10/82(2022.01) G06V 20/64(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 (57)摘要本发明公开了一种基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法，属于计算机视觉技术领域。该方法利用不同的数据增广对 LiDAR点云数据和图像数据进行变换，经过网络分别提取特征后，将两个模态特征投影到同一个鸟瞰图(BEV)空间中，之后利用反变换将两者的特征对齐，通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征。在实际应用中，训练得到的具有强表征能力的网络能够被应用在多种自动驾驶的下游任务中，包括但不限于3d目标检测、 3d实例分割、语义分割等任务。上述预训练的网络能够被用来初始化检测器的骨干网络，加速模型在训练时的收敛速度，同时提高网络性能。权利要求书1页说明书4页附图1页 CN 115205633 A 2022.10.18 CN 115205633 A 1.一种自动驾驶多模态自监督预训练方法，其特征在于，包括如下步骤： 1)根据所需要的任务，选择针对LiDA R点云输入和图像输入的两个骨干网络，且在图像骨干网络额外增加一个深度预测器； 2)构建多模态数据增广策略； 3)将自动驾驶数据输入到步骤2)中的多模态数据增广策略中，得到增广后的数据，再将该数据输入到对应模态的骨干网络中，得到对应模态的特征表示，并将图像的特征表示输入到深度预测器中，获得图像表征在像素空间上的深度图； 4)构建多模态鸟瞰图特征，利用步骤3)中获得的深度图，将2维图像表征转换为3维图像表征，同时利用LiDAR空间和像素空间的转换矩阵，将3维图像表征转换到LiDAR空间，之后压缩操作，将转换空间后的3维图像表征和原本的L iDAR表征转换为鸟瞰图表示； 5)多模态鸟瞰图特征对齐，对两个模态的鸟瞰图特征用逆数据变换进行变换，得到对齐的鸟瞰图特征； 6)多模态细粒度对比学习，将两个模态鸟瞰图特征的余弦相似度与绝对距离作为权重，利用匈牙利算法对两个模态的鸟瞰图表征进行匹配，将匹配上的表征作为正样本，非匹配表征作为负样本，进行对比学习，实现自动驾驶多模态自监督预训练。 2.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤6)中采用 InfoNCE作为损失函数：来更新网络进行预训练，其中vi为特征中的特征向量，为特征中的特征向量，表示为两者的向量点乘， τ 为温度系数。 3.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤2)中对于 LiDAR输入，采用旋转、平移和对称的数据增广策略。 4.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤2)中对于图像输入，采用裁切、颜色变换和对称的数据增广策略。 5.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤6)预训练结束后，对于不同的下游任务，将预训练权重载入到下游任务网络的骨干网络部分，按照下游任务的训练流程进行微调，得到下游任务相关的神经网络模型。权　利　要　求　书 1/1 页 2 CN 115205633 A 2基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法技术领域 [0001]本发明属于计算机视觉技术领域，涉及利用计算机视觉及深度学习技术对自动驾驶神经网络模型进行预训练，尤其涉及一种基于鸟瞰图对比学习的多模态自监督预训练方法，可用于自动驾驶通用神经网络模型。背景技术 [0002]近年来，机器学习研究和应用得到了蓬勃发展。其中，深度学习方法已在许多应用领域(例如计算机视觉，语音处理和机器翻译)中取得了关键性的进步。深度学习在感知任务中的成功很大程度上归功于卷积神经网络对于图像视觉强大的表征和学习能力。这种强大的表征和学习能力能够使得网络在不同任务之间进行迁移。因此，在实际应用中，对于神经网络的训练一般分为两步，首先对网络在大规模的分类任务数据集上进行预训练，使得网络能够学习到适用于图像理解任务的强大视觉表征，之后，将该网络在大规模数据集上学习到的表征能力，迁移到相对来说具有较小规模数据集的下游任务中，例如目标检测、语义分割和示例分割等任务。这种结合预训练和微调的训练范式，相比于直接在下游任务上进行训练来说，能够取得更好的效果。 [0003]然而，对网络进行大规模的分类任务预训练时，依赖了大量的手工标记数据。即使当前有像ImageNet这样的大规模分类数据集，但是随着网络架构的复杂化和规模的增加，使得ImageNet逐渐无法满足网络的训练要求。然而，获取更大规模的有标注数据集是非常费时费力的。因此，为了减轻数据标注的工作量，如何有效利用大量的无标签数据成为了学者关注的焦点。于是，不使用任何人工标注来学习图像视觉表征的自监督学习也应运而生。 [0004]自监督学习作为无监督学习的一种方法，其目标是在不使用图像标注的前提下，通过设计的自监督任务，自动地为无标签数据生成伪标签，通过该伪标签以及对应的自监督任务，对神经网络进行预训练。通过自监督预训练获取的图像表征，相比于监督预训练来说，具有更好的泛化能力，在迁移到下游任务时，往往能够取得更好的效果。 [0005]在实际应用中，现有的自监督预训练方法，通常采用对比学习的自监督任务。对于自动驾驶中的下游任务(例如3 d目标检测)来说，高精度网络架构通常拥有对LiDAR点云和图像数据分别处理的部分，虽然利用基于对比学习的自监督预训练方法能够对LiDAR和图像网络分别进行预训练，但是这种预训练方法通常对LiDAR网络架构有较强的约束，且缺少两个模态之间的交互，导致预训练效率低下。 [0006]因此，现有的基于对比学习的自监督预训练方法对于自动驾驶中的下游任务来说，技术上还存在一定瓶颈，网络约束过大，预训练效率不高。发明内容 [0007]为了克服上述现有技术的不足，本发明提供一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法，提出利用不同的数据增广对LiDAR点云数据和图像数据进行变换，经过网络分别提取特征后，将两个模态特征投影到同一个鸟瞰图(BEV)空间中，说　明　书 1/4 页 3 CN 115205633 A 3

专利 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

专利基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法