全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210889746.7 (22)申请日 2022.07.27 (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号 (72)发明人 王勇涛 林志威 汤帜  (74)专利代理 机构 北京万象新悦知识产权代理 有限公司 1 1360 专利代理师 贾晓玲 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/776(2022.01) G06V 10/82(2022.01) G06V 20/64(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于鸟瞰图对比学习的自动驾驶多模态自 监督预训练方法 (57)摘要 本发明公开了一种基于鸟瞰图对比学习的 自动驾驶多模态自监督预训练方法, 属于计算机 视觉技术领域。 该方法利用不同的数据增广对 LiDAR点云数据和图像数据进行变换, 经过网络 分别提取特征后, 将两个模态特征投影到同一个 鸟瞰图(BEV)空间中, 之后利用反变换将两者的 特征对齐, 通过细粒度的对比学习来使得网络能 够学习到通用的LiDAR点云和图像表征。 在实 际 应用中, 训练得到的具有强表征能力的网络能够 被应用在 多种自动驾驶的下游任务中, 包括但不 限于3d目标检测、 3d实例分割、 语义 分割等任务。 上述预训练的网络能够被用来初始化检测器的 骨干网络, 加速模型在训练时的收敛速度, 同时 提高网络性能。 权利要求书1页 说明书4页 附图1页 CN 115205633 A 2022.10.18 CN 115205633 A 1.一种自动驾驶多模态自监 督预训练方法, 其特 征在于, 包括如下步骤: 1)根据所需要的任务, 选择针对LiDA R点云输入和图像输入的两个骨干 网络, 且在图像 骨干网络额外增 加一个深度预测器; 2)构建多模态数据增广策略; 3)将自动驾驶数据输入到步骤2)中的多模态数据增广策略中, 得到增广后的数据, 再 将该数据输入到对应模态的骨干网络中, 得到对应模态的特征表示, 并将图像的特征表示 输入到深度预测器中, 获得图像表征在像素空间上的深度图; 4)构建多模态鸟瞰图特征, 利用步骤3)中获得的深度图, 将2维图像表征转换为3维图 像表征, 同时利用LiDAR空间和像素空间的转换矩阵, 将3维图像表征转换到LiDAR空间, 之 后压缩操作, 将转换空间后的3维图像表征和原本的L iDAR表征转换为鸟瞰图表示; 5)多模态鸟瞰图特征对齐, 对两个模态的鸟瞰图特征用逆数据变换进行变换, 得到对 齐的鸟瞰图特 征; 6)多模态细粒度对比学习, 将两个模态鸟瞰图特征的余弦相似度与绝对距离作为权 重, 利用匈牙利算法对两个模态的鸟瞰图表征进 行匹配, 将匹配上的表征作为正样本, 非匹 配表征作为负 样本, 进行对比学习, 实现自动驾驶多模态自监 督预训练。 2.如权利要求1所述的自动驾驶多模态自监督预训练方法, 其特征在于, 步骤6)中采用 InfoNCE作为损失函数: 来更新网络进行预训练, 其中vi为特征 中的特征向量, 为特征 中的特征向 量, 表示为两者的向量 点乘, τ 为温度系数。 3.如权利要求1所述的自动驾驶多模态自监督预训练方法, 其特征在于, 步骤2)中对于 LiDAR输入, 采用旋转、 平 移和对称的数据增广策略。 4.如权利要求1所述的自动驾驶多模态自监督预训练方法, 其特征在于, 步骤2)中对于 图像输入, 采用裁切、 颜色变换和对称的数据增广策略。 5.如权利要求1所述的自动驾驶多模态自监督预训练方法, 其特征在于, 步骤6)预训练 结束后, 对于不同的下游任务, 将预训练权重载入到下游任务网络的骨干网络部 分, 按照下 游任务的训练流 程进行微调, 得到下游任务相关的神经网络模型。权 利 要 求 书 1/1 页 2 CN 115205633 A 2基于鸟瞰图对比学习的 自动驾驶多模 态自监督 预训练方 法 技术领域 [0001]本发明属于计算机视觉技术领域, 涉及利用计算机视觉及深度学习技术对自动驾 驶神经网络模型进行预训练, 尤其涉及一种基于鸟瞰图对比学习的多模态自监督预训练方 法, 可用于自动驾驶 通用神经网络模型。 背景技术 [0002]近年来, 机器学习研究和应用得到了蓬勃发展。 其中, 深度学习方法已在许多应用 领域(例如计算机视觉, 语音处理和机器翻译)中取得了关键性的进步。 深度学习在感知任 务中的成功很大程度上归功于卷积神经网络对于图像视觉强大的表征和学习能力。 这种强 大的表征和学习能力能够 使得网络在不同任务之间进 行迁移。 因此, 在实际应用中, 对于神 经网络的训练一般分为两步, 首先对网络在大规模的分类任务数据集上进行预训练, 使得 网络能够学习到适用于图像理解任务的强大视觉表征, 之后, 将该网络在大规模数据集上 学习到的表征能力, 迁移到相对来说具有较小规模 数据集的下游任务中, 例如目标检测、 语 义分割和 示例分割等任务。 这种 结合预训练和 微调的训练范式, 相比于直接在下游任务上 进行训练来说, 能够取 得更好的效果。 [0003]然而, 对网络进行大规模的分类任务预训练时, 依赖了大量的手工标记数据。 即使 当前有像ImageNet这样的大规模分类数据集, 但是随着 网络架构的复杂化和规模的增加, 使得ImageNet逐渐无法满足网络的训练要求。 然而, 获取更大规模的有标注数据集是非常 费时费力的。 因此, 为了减轻数据标注的工作量, 如何有效利用大量的无标签数据成为了学 者关注的焦点。 于是, 不使用任何人工标注来学习图像视 觉表征的自监 督学习也应运而生。 [0004]自监督学习作为无监督学习的一种方法, 其目标是在不使用图像标注的前提下, 通过设计的自监督任务, 自动地为无标签数据生成伪标签, 通过该伪标签以及对应的自监 督任务, 对神经网络进 行预训练。 通过自监督预训练获取的图像表征, 相比于监督预训练来 说, 具有更好的泛化能力, 在迁移到下游任务时, 往 往能够取 得更好的效果。 [0005]在实际应用中, 现有的自监督预训练方法, 通常采用对比学习的自监督任务。 对于 自动驾驶中的下游任务(例如3 d目标检测)来说, 高精度网络架构通常拥有对LiDAR点云和 图像数据分别处理的部分, 虽然利用基于对比学习的自监督预训练方法能够对LiDAR和图 像网络分别进行预训练, 但是这种预训练方法通常对LiDAR网络架构有较强的约束, 且缺少 两个模态之间的交 互, 导致预训练效率低下。 [0006]因此, 现有的基于对比学习的自监督预训练方法对于自动驾驶中的下游任务来 说, 技术上还存在一定瓶颈, 网络约束过 大, 预训练效率 不高。 发明内容 [0007]为了克服上述现有技术的不足, 本发明提供一种针对自动驾驶的基于鸟瞰图对比 学习的多模态自监督预训练方法, 提出利用不同的数据增广对LiDAR点云数据和图像数据 进行变换, 经过网络分别提取特征后, 将两个模态特征投影到同一个鸟瞰图(BEV)空间中,说 明 书 1/4 页 3 CN 115205633 A 3

.PDF文档 专利 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 第 1 页 专利 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 第 2 页 专利 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:15:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。