全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210680819.1 (22)申请日 2022.06.15 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 张新钰 李骏 李志伟 金宪伟  黄健耕  (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 张建纲 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于鸟瞰投影的飞行汽车3D语义分割 方法及系统 (57)摘要 本发明公开了一种基于鸟瞰投影的飞行汽 车3D语义分割方法及系统, 该方法包括: 步骤1) 对飞行汽车采集的不定尺寸大规模3D点云数据 进行给定尺寸裁剪; 步骤2)通过设定比例因子、 窗格尺寸和步距, 经缩小、 滑窗法和正则化处理 得到若干个窗格, 每个窗格包括若干个网格, 分 别对每个网格的点云数据进行 投影, 得到每个窗 格的RGB图像和Alt深度投影图; 步骤3)将每个窗 格的RGB图像和Alt深度投影 图输入预先建立和 训练好的2D图像语义 分割模型, 得到2D语义 分割 结果; 步骤4)将2D语义分割结果, 映射到3D点云 数据上, 得到3D语义分割结果; 2D图像语义分割 模型基于自注意力机制的多 模型融合方法实现。 权利要求书3页 说明书7页 附图2页 CN 115035296 A 2022.09.09 CN 115035296 A 1.一种基于鸟瞰投影的飞行汽车3D语义分割方法, 所述方法包括: 步骤1)对飞行汽车采集的不定尺寸大规模3D点云数据进行 给定尺寸裁 剪; 步骤2)通过设定比例因子、 窗格尺寸和步距, 经缩小、 滑窗法和正则化处理基于尺寸裁 剪后的点云数据得到若干个窗格, 每个窗格包括若干个网格, 分别对每个网格的点云数据 进行投影, 得到每 个窗格的RGB图像和Alt深度投影图; 步骤3)将每个窗格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义 分割模型, 得到2D语义分割结果; 步骤4)将获得的2D语义分割结果, 映射到 3D点云数据上, 得到 3D语义分割结果; 所述2D图像 语义分割模型基于自注意力机制的多模型融合方法实现。 2.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述 步骤2)具体包括: 步骤201)设定比例因子gscale为固定值, 对尺寸裁剪后的点云数据进行缩小, 使得稀疏 的点云数据变得稠密; 步骤202)设定窗格尺寸gsize和窗格步距gstep, 将点云数据分割为若干窗格; 步骤203)使用比例因子gscale对单一窗格内的点云数据 进行正则化, 得到正则化后该窗 格内所有点云数据横、 纵坐标的最大值xmax和ymax, 分割每个窗格为xmax×ymax个网格; 步骤204)遍历所有网格, 保留每个网格下所有点中的z坐标最大值的点, 舍弃其余的 点, 并将该点的坐 标值(xi, yi, zi)赋给RGB图像中坐 标为(xi, yi)处的RGB三通道的分量, 将该 点的深度坐标值zi赋给Alt图像中坐标为(xi, yi)处的值, 构成单通道的灰度图像; 步骤205)重复步骤203)~步骤204), 遍历每个窗格的每个网格, 获得所有点云数据的 一系列BEV投影, 所述BEV投影包括RGB图像和Alt深度投影图。 3.根据权利要求2所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述 步骤203)的使用比例因子gscale对单一窗格内的点云数据进行正则化; 具体包括: 获取单一窗格内所有 点云数据 横、 纵坐标的最小值xmin和ymin, 对于窗格内的每个点(xi, yi), 将int((xi‑xmin)/gscale作为该点的横坐标, 将int((yi‑ymin)/gscale作为该点的纵坐标, 实现点云数据的正则化。 4.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述 2D图像语义分割模 型包括: RGB分支、 Alt分支、 注 意力机制模块和拼接模块; 其中RGB分支和 Alt分支并联后依次连接注意力机制模块和拼接模块; 所述RGB分支和Alt分支结构相同, 均包括依次连接的基础网络和AS PP结构, 其中, RGB分支的输入为RGB图像, 输出为对应RGB图像 的5个特征 图, 特征图的尺寸均为(60, 60, 256); Alt分支的输入为Alt深度投影图, 输出为对应Alt深度投影图的5个特征图, 特征图的 尺寸均为(6 0, 60, 256); 所述注意力机制模块, 用于将上述两个分支输出的特征图展成特征向量, 基于注意力 机制, 在Q, K, V上做投影, 输出5个特 征向量; 所述拼接模块, 用于将注意力机制模块输出的5个特征向量沿特征图的通道方向进行 拼接, 经上采样, 还原到原图的尺度。 5.根据权利要求4所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述权 利 要 求 书 1/3 页 2 CN 115035296 A 2基础网络为以ResNet50为骨干网络的DeepLabv3架构, 包括依次连接的4个Block层, 其中, Block1和Block2均包括: 卷积核为7 ×7, 步距为2的卷积层, 池化核为3 ×3, 步距为2的最大 池化下采样, 以及 ResNet网络中的一系列残差结构; Block3和Block4中的第一个残差结构 的第一个卷积层以及捷径分支上的步距都设置为1, Block3中的所有3 ×3的卷积层均替换 为膨胀卷积, 膨胀系数设置为2, Block4中的所有3 ×3的卷积层均替换为膨胀卷积, 膨胀系 数设置为 4; 所述ASPP结构包括5个并联的分支, 第一分支为1 ×1的普通卷积层; 中间三个分支均 为 为3×3的膨胀卷积, 对应的膨胀系数分别为(12, 24, 36); 最后一个 分支为全局池化层, 以获 得全局的信息 。 6.根据权利要求5所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述 方法还包括2D图像 语义分割模型的训练步骤; 具体包括: 建立训练集; 基于训练集对2D图像语义分割模型进行训练, 当满足训练条件, 得到训练好的2D图像 语义分割模型。 7.根据权利要求6所述的基于鸟瞰投影的飞行汽车3D语义分割方法, 其特征在于, 所述 建立训练集具体包括: 步骤s1)对飞行汽车采集的不定尺寸大规模3D点云数据进行 给定尺寸裁 剪; 步骤s2)设定比例因子gscale为固定值, 对尺寸裁剪后的点云数据 进行缩小, 使得稀疏的 点云数据变得稠密; 步骤s3)设定窗格尺寸gsize和窗格步距gstep, 将点云数据分割为若干窗格; 步骤s4)使用比例因子gscale对单一窗格内的点云数据进行正则化, 得到正则化后该窗 格内所有点云数据横、 纵坐标的最大值xmax和ymax, 分割每个窗格为xmax×ymax个网格, 记录每 个网格中对应的所有离 散的点云的绝对坐标; 步骤s5)遍历所有网格, 保留每个网格的所有点云中的z坐标最大值的点, 舍弃其余的 点, 并将该点的坐 标值(xi, yi, zi)赋给RGB图像中坐 标为(xi, yi)处的RGB三通道的分量, 将该 点的深度坐标值zi赋给Alt图像中坐标为(xi, yi)处的值, 构成单通道的灰度图像, 同时保存 该点对应的标签作为2D语义分割的标签; 当网格中没有点云数据时, 以0填充RGB和Alt图 像, 标签为无类别背景 标签; 步骤s6)重 复步骤s4)~步骤s5), 遍历每个窗格的每个网格, 获得所有点云数据的一系 列BEV投影, 结合对应的标签信息组成训练集。 8.一种基于鸟瞰投影的飞行汽车3D语义分割系统, 其特征在于, 所述系统包括2D图像 语义分割模型、 尺寸裁 剪模块、 投影模块、 2D语义分割处 理模块和3D语义分割处 理模块; 所述尺寸裁剪模块, 用于对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸 裁剪; 所述投影模块, 用于通过设定比例因子、 窗格尺寸和步距, 经缩小、 滑窗法和正则化处 理基于尺寸裁剪后的点云数据得到若干个窗格, 每个窗格包括若干个网格, 分别对每个网 格的点云数据进行投影, 得到每 个网格的RGB图像和Alt深度投影图; 所述2D语义分割处理模块, 用于将每个网格的RGB图像和Alt深度投影图输入预先建立 和训练好的2D图像 语义分割模型, 得到2D语义分割结果;权 利 要 求 书 2/3 页 3 CN 115035296 A 3

.PDF文档 专利 一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统 第 1 页 专利 一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统 第 2 页 专利 一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:27:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。