(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210609381.8
(22)申请日 2022.05.31
(71)申请人 北京迈格威科技有限公司
地址 100086 北京市海淀区科 学院南路2号
3层317
(72)发明人 刘迎飞 汪天才 贾凡
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 王婷婷
(51)Int.Cl.
G06V 10/26(2022.01)
G06T 7/55(2017.01)
G06T 7/73(2017.01)
G06T 5/50(2006.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
多任务目标检测方法、 装置、 设备及 介质
(57)摘要
本发明实施例提供了一种多任务目标检测
方法、 装置、 设备及介质, 所述方法包括: 获得多
帧图像各自的2D图像特征和3D空间坐标, 每帧图
像包括多个视角下的子图像; 对 所述多帧图像的
3D坐标进行3D空间下的位置对齐, 得到 所述多帧
图像各自的对齐后3D空间坐标; 将所述多帧图像
各自的2D图像特征与其对齐后3D空间坐标融合,
得到所述多帧图像各自的含有3D空间位置信息
的2D图像特征; 获得BEV空间下的多个固定位置
点的第一嵌入特征, 并获得所述3D空间下的多个
预先训练的位置点的第二 嵌入特征; 根据所述第
一嵌入特征、 所述第二嵌入特征、 所述多帧图像
各自的含有3D空间位置信息的2D图像特征, 得到
语义分割结果和3D目标检测结果。
权利要求书3页 说明书11页 附图2页
CN 115187776 A
2022.10.14
CN 115187776 A
1.一种多任务目标检测方法, 其特 征在于, 所述方法包括:
获得多帧图像各自的2D图像特 征和3D空间坐标, 每帧图像包括多个视角下的子图像;
对所述多帧图像的3D坐标进行3D空间下的位置对齐, 得到所述多帧图像各自的对齐后
3D空间坐标;
将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合, 得到所述多帧图像各
自的含有3D空间位置信息的2D图像特 征;
获得BEV空间下的多个固定位置点的第一嵌入特征, 并获得所述3D空间下的多个预先
训练的位置点的第二嵌入特征, 所述预先训练为: 学习了携带语义分割 标签和3D目标标签
的图像样本的训练;
根据所述第一嵌入特征、 所述第二嵌入特征、 所述多帧图像各自的含有3D空间位置信
息的2D图像特 征, 得到语义分割结果和3D目标检测结果。
2.根据权利要求1所述的方法, 其特征在于, 所述多帧图像包括: 当前时刻图像和上一
时刻图像; 获得多帧图像各自的2D图像特 征, 包括:
对所述当前时刻图像进行特征提取, 得到当前时刻图像的2D图像特征, 以及, 读取预先
缓存的所述上一时刻图像的2D图像特 征;
所述方法还 包括:
缓存当前时刻图像的2D图像特征, 以与下一 时刻图像共同实现下一 时刻的多任务目标
检测。
3.根据权利要求1或2所述的方法, 其特征在于, 所述多帧图像包括: 当前时刻图像和上
一时刻图像; 对所述多帧图像的3D坐标进行3D空间下的位置对齐, 得到所述多帧图像各自
的对齐后3D空间坐标, 包括:
保持所述当前时刻图像的3D坐标不变, 将所述上一时刻图像的3D空间坐标向所述当前
时刻图像的3D坐标进行3D空间下的位置对齐, 得到所述上一时刻的对齐后3D空间坐标;
将所述多帧图像各自的2D图像特 征与其对齐后3D空间坐标融合, 包括:
将所述当前时刻图像的2D图像特征与所述当前时刻图像的3D空间坐标融合, 以及, 将
所述上一时刻图像的2D图像特 征与所述上一时刻图像的对齐后3D空间坐标融合。
4.根据权利要求1 ‑3任一所述的方法, 其特征在于, 针对所述多帧图像中的每帧图像,
将所述该帧图像的2D图像特征与其对齐后3D空间坐标融合, 得到该帧图像的含有3D空间位
置信息的2D图像特 征, 包括:
通过卷积模块和第一激活函数模块对该帧图像的对齐后3D空间坐标进行处理, 得到3D
特征;
通过卷积模块和第二激活函数模块对该帧图像的2D图像特 征进行处 理, 得到2D特 征;
将所述3D特 征与所述2D特 征相融合, 得到 3D空间位置特 征;
将所述3D空间位置特征与该帧图像的2D图像特征相融合, 得到该帧图像的含有3D空间
位置信息的2D图像特 征。
5.根据权利要求1 ‑4任一所述的方法, 其特征在于, 获得BEV空间下的多个固定位置点
的第一嵌入特 征, 包括:
将所述BEV空间均匀划分为多个BEV空间网格, 将所述多个BEV空间网格的中心点确定
为所述多个固定位置点;权 利 要 求 书 1/3 页
2
CN 115187776 A
2将所述多个固定位置点的BEV空间坐标输入预先训练的编码器, 得到所述第一嵌入特
征;
获得所述3D空间下的多个预 先训练的位置点的第二嵌入特 征, 包括:
将多个预先训练的3D空间位置点的3D空间坐标输入预先训练的编码器, 得到所述第二
嵌入特征。
6.根据权利要求1 ‑5任一所述的方法, 其特征在于, 根据所述第一嵌入特征、 所述第二
嵌入特征、 所述多帧图像各自的含有3D空间位置信息的2D图像特征, 得到语义分割结果和
3D目标检测结果, 包括:
通过预先训练 的特征交互网络, 获得所述第 一嵌入特征与所述第 二嵌入特征的第 一交
互结果;
通过所述预先训练的特征交互网络, 获得所述第 一嵌入特征与 所述多帧图像各自的含
有3D空间位置信息的2D图像特征的第二交互结果, 以及, 获得所述第二嵌入特征与所述多
帧图像各自的含有3D空间位置信息的2D图像特 征的第三交 互结果;
根据所述第一交 互结果和所述第二交 互结果, 得到所述语义分割结果;
根据所述第二交 互结果和所述第三交 互结果, 得到所述3D目标检测结果。
7.根据权利要求1 ‑6任一所述的方法, 其特征在于, 所述多任务目标检测方法是通过预
先训练的包括编码器和特征交互网络的多任务目标检测网络实现的, 所述多任务目标检测
网络的训练过程包括:
在所述3D空间中初始化多个3D空间随机位置点;
利用所述携带语义分割标签和3D目标标签的图像样本, 对包括编码器和特征交互网络
的多任务目标检测网络进行训练, 在训练过程中更新所述多任务目标检测网络的网络参
数, 并更新所述3D空间随机位置点;
在训练结束时, 得到训练完毕的包括编码器和特征交互网络的多任务目标检测网络和
多个预先训练的3D空间位置点。
8.根据权利要求1 ‑7任一所述的方法, 其特征在于, 所述3D目标检测结果为: 所述多视
角中至少一个视角下的3D目标检测结果; 和/或所述3D空间下的3D目标检测结果。
9.一种多任务目标检测装置, 其特 征在于, 包括:
图像获得模块, 用于获得多帧图像各自的2D图像特征和3D空间坐标, 每帧图像包括多
个视角下的子图像;
位置对齐模块, 用于对所述多帧图像的3D坐标进行3D空间下的位置对齐, 得到所述多
帧图像各自的对齐后3D空间坐标;
融合模块, 用于将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合, 得到
所述多帧图像各自的含有3D空间位置信息的2D图像特 征;
嵌入特征获得模块, 用于获得BEV空间下的多个固定位置点的第一嵌入特征, 并获得所
述3D空间下的多个预先训练的位置点的第二嵌入特征, 所述预先训练为: 学习了携带语义
分割标签和3D目标 标签的图像样本的训练;
检测模块, 用于根据 所述第一嵌入特征、 所述第 二嵌入特征、 所述多帧图像各自的含有
3D空间位置信息的2D图像特 征, 得到语义分割结果和3D目标检测结果。
10.一种电子设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并可在处理器权 利 要 求 书 2/3 页
3
CN 115187776 A
3
专利 多任务目标检测方法、装置、设备及介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:51:47上传分享