专利一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210680819.1 (22)申请日 2022.06.15 (71)申请人清华大学地址 100084 北京市海淀区清华园1号 (72)发明人张新钰　李骏　李志伟　金宪伟　黄健耕　 (74)专利代理机构北京三聚阳光知识产权代理有限公司 1 1250 专利代理师张建纲 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统 (57)摘要本发明公开了一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统，该方法包括：步骤1) 对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；步骤2)通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个窗格的RGB图像和Alt深度投影图；步骤3)将每个窗格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；步骤4)将2D语义分割结果，映射到3D点云数据上，得到3D语义分割结果； 2D图像语义分割模型基于自注意力机制的多模型融合方法实现。权利要求书3页说明书7页附图2页 CN 115035296 A 2022.09.09 CN 115035296 A 1.一种基于鸟瞰投影的飞行汽车3D语义分割方法，所述方法包括：步骤1)对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；步骤2)通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理基于尺寸裁剪后的点云数据得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个窗格的RGB图像和Alt深度投影图；步骤3)将每个窗格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；步骤4)将获得的2D语义分割结果，映射到 3D点云数据上，得到 3D语义分割结果；所述2D图像语义分割模型基于自注意力机制的多模型融合方法实现。 2.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述步骤2)具体包括：步骤201)设定比例因子gscale为固定值，对尺寸裁剪后的点云数据进行缩小，使得稀疏的点云数据变得稠密；步骤202)设定窗格尺寸gsize和窗格步距gstep，将点云数据分割为若干窗格；步骤203)使用比例因子gscale对单一窗格内的点云数据进行正则化，得到正则化后该窗格内所有点云数据横、纵坐标的最大值xmax和ymax，分割每个窗格为xmax×ymax个网格；步骤204)遍历所有网格，保留每个网格下所有点中的z坐标最大值的点，舍弃其余的点，并将该点的坐标值(xi， yi， zi)赋给RGB图像中坐标为(xi， yi)处的RGB三通道的分量，将该点的深度坐标值zi赋给Alt图像中坐标为(xi， yi)处的值，构成单通道的灰度图像；步骤205)重复步骤203)～步骤204)，遍历每个窗格的每个网格，获得所有点云数据的一系列BEV投影，所述BEV投影包括RGB图像和Alt深度投影图。 3.根据权利要求2所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述步骤203)的使用比例因子gscale对单一窗格内的点云数据进行正则化；具体包括：获取单一窗格内所有点云数据横、纵坐标的最小值xmin和ymin，对于窗格内的每个点(xi， yi)，将int((xi‑xmin)/gscale作为该点的横坐标，将int((yi‑ymin)/gscale作为该点的纵坐标，实现点云数据的正则化。 4.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述 2D图像语义分割模型包括： RGB分支、 Alt分支、注意力机制模块和拼接模块；其中RGB分支和 Alt分支并联后依次连接注意力机制模块和拼接模块；所述RGB分支和Alt分支结构相同，均包括依次连接的基础网络和AS PP结构，其中， RGB分支的输入为RGB图像，输出为对应RGB图像的5个特征图，特征图的尺寸均为(60， 60， 256)； Alt分支的输入为Alt深度投影图，输出为对应Alt深度投影图的5个特征图，特征图的尺寸均为(6 0， 60， 256)；所述注意力机制模块，用于将上述两个分支输出的特征图展成特征向量，基于注意力机制，在Q， K， V上做投影，输出5个特征向量；所述拼接模块，用于将注意力机制模块输出的5个特征向量沿特征图的通道方向进行拼接，经上采样，还原到原图的尺度。 5.根据权利要求4所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述权　利　要　求　书 1/3 页 2 CN 115035296 A 2基础网络为以ResNet50为骨干网络的DeepLabv3架构，包括依次连接的4个Block层，其中， Block1和Block2均包括：卷积核为7 ×7，步距为2的卷积层，池化核为3 ×3，步距为2的最大池化下采样，以及 ResNet网络中的一系列残差结构； Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1， Block3中的所有3 ×3的卷积层均替换为膨胀卷积，膨胀系数设置为2， Block4中的所有3 ×3的卷积层均替换为膨胀卷积，膨胀系数设置为 4；所述ASPP结构包括5个并联的分支，第一分支为1 ×1的普通卷积层；中间三个分支均为为3×3的膨胀卷积，对应的膨胀系数分别为(12， 24， 36)；最后一个分支为全局池化层，以获得全局的信息。 6.根据权利要求5所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述方法还包括2D图像语义分割模型的训练步骤；具体包括：建立训练集；基于训练集对2D图像语义分割模型进行训练，当满足训练条件，得到训练好的2D图像语义分割模型。 7.根据权利要求6所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述建立训练集具体包括：步骤s1)对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；步骤s2)设定比例因子gscale为固定值，对尺寸裁剪后的点云数据进行缩小，使得稀疏的点云数据变得稠密；步骤s3)设定窗格尺寸gsize和窗格步距gstep，将点云数据分割为若干窗格；步骤s4)使用比例因子gscale对单一窗格内的点云数据进行正则化，得到正则化后该窗格内所有点云数据横、纵坐标的最大值xmax和ymax，分割每个窗格为xmax×ymax个网格，记录每个网格中对应的所有离散的点云的绝对坐标；步骤s5)遍历所有网格，保留每个网格的所有点云中的z坐标最大值的点，舍弃其余的点，并将该点的坐标值(xi， yi， zi)赋给RGB图像中坐标为(xi， yi)处的RGB三通道的分量，将该点的深度坐标值zi赋给Alt图像中坐标为(xi， yi)处的值，构成单通道的灰度图像，同时保存该点对应的标签作为2D语义分割的标签；当网格中没有点云数据时，以0填充RGB和Alt图像，标签为无类别背景标签；步骤s6)重复步骤s4)～步骤s5)，遍历每个窗格的每个网格，获得所有点云数据的一系列BEV投影，结合对应的标签信息组成训练集。 8.一种基于鸟瞰投影的飞行汽车3D语义分割系统，其特征在于，所述系统包括2D图像语义分割模型、尺寸裁剪模块、投影模块、 2D语义分割处理模块和3D语义分割处理模块；所述尺寸裁剪模块，用于对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；所述投影模块，用于通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理基于尺寸裁剪后的点云数据得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个网格的RGB图像和Alt深度投影图；所述2D语义分割处理模块，用于将每个网格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；权　利　要　求　书 2/3 页 3 CN 115035296 A 3

专利 一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统

专利一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统