专利 多任务目标检测方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210609381.8 (22)申请日 2022.05.31 (71)申请人北京迈格威科技有限公司地址 100086 北京市海淀区科学院南路2号 3层317 (72)发明人刘迎飞　汪天才　贾凡　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师王婷婷 (51)Int.Cl. G06V 10/26(2022.01) G06T 7/55(2017.01) G06T 7/73(2017.01) G06T 5/50(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称多任务目标检测方法、装置、设备及介质 (57)摘要本发明实施例提供了一种多任务目标检测方法、装置、设备及介质，所述方法包括：获得多帧图像各自的2D图像特征和3D空间坐标，每帧图像包括多个视角下的子图像；对所述多帧图像的 3D坐标进行3D空间下的位置对齐，得到所述多帧图像各自的对齐后3D空间坐标；将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合，得到所述多帧图像各自的含有3D空间位置信息的2D图像特征；获得BEV空间下的多个固定位置点的第一嵌入特征，并获得所述3D空间下的多个预先训练的位置点的第二嵌入特征；根据所述第一嵌入特征、所述第二嵌入特征、所述多帧图像各自的含有3D空间位置信息的2D图像特征，得到语义分割结果和3D目标检测结果。权利要求书3页说明书11页附图2页 CN 115187776 A 2022.10.14 CN 115187776 A 1.一种多任务目标检测方法，其特征在于，所述方法包括：获得多帧图像各自的2D图像特征和3D空间坐标，每帧图像包括多个视角下的子图像；对所述多帧图像的3D坐标进行3D空间下的位置对齐，得到所述多帧图像各自的对齐后 3D空间坐标；将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合，得到所述多帧图像各自的含有3D空间位置信息的2D图像特征；获得BEV空间下的多个固定位置点的第一嵌入特征，并获得所述3D空间下的多个预先训练的位置点的第二嵌入特征，所述预先训练为：学习了携带语义分割标签和3D目标标签的图像样本的训练；根据所述第一嵌入特征、所述第二嵌入特征、所述多帧图像各自的含有3D空间位置信息的2D图像特征，得到语义分割结果和3D目标检测结果。 2.根据权利要求1所述的方法，其特征在于，所述多帧图像包括：当前时刻图像和上一时刻图像；获得多帧图像各自的2D图像特征，包括：对所述当前时刻图像进行特征提取，得到当前时刻图像的2D图像特征，以及，读取预先缓存的所述上一时刻图像的2D图像特征；所述方法还包括：缓存当前时刻图像的2D图像特征，以与下一时刻图像共同实现下一时刻的多任务目标检测。 3.根据权利要求1或2所述的方法，其特征在于，所述多帧图像包括：当前时刻图像和上一时刻图像；对所述多帧图像的3D坐标进行3D空间下的位置对齐，得到所述多帧图像各自的对齐后3D空间坐标，包括：保持所述当前时刻图像的3D坐标不变，将所述上一时刻图像的3D空间坐标向所述当前时刻图像的3D坐标进行3D空间下的位置对齐，得到所述上一时刻的对齐后3D空间坐标；将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合，包括：将所述当前时刻图像的2D图像特征与所述当前时刻图像的3D空间坐标融合，以及，将所述上一时刻图像的2D图像特征与所述上一时刻图像的对齐后3D空间坐标融合。 4.根据权利要求1 ‑3任一所述的方法，其特征在于，针对所述多帧图像中的每帧图像，将所述该帧图像的2D图像特征与其对齐后3D空间坐标融合，得到该帧图像的含有3D空间位置信息的2D图像特征，包括：通过卷积模块和第一激活函数模块对该帧图像的对齐后3D空间坐标进行处理，得到3D 特征；通过卷积模块和第二激活函数模块对该帧图像的2D图像特征进行处理，得到2D特征；将所述3D特征与所述2D特征相融合，得到 3D空间位置特征；将所述3D空间位置特征与该帧图像的2D图像特征相融合，得到该帧图像的含有3D空间位置信息的2D图像特征。 5.根据权利要求1 ‑4任一所述的方法，其特征在于，获得BEV空间下的多个固定位置点的第一嵌入特征，包括：将所述BEV空间均匀划分为多个BEV空间网格，将所述多个BEV空间网格的中心点确定为所述多个固定位置点；权　利　要　求　书 1/3 页 2 CN 115187776 A 2将所述多个固定位置点的BEV空间坐标输入预先训练的编码器，得到所述第一嵌入特征；获得所述3D空间下的多个预先训练的位置点的第二嵌入特征，包括：将多个预先训练的3D空间位置点的3D空间坐标输入预先训练的编码器，得到所述第二嵌入特征。 6.根据权利要求1 ‑5任一所述的方法，其特征在于，根据所述第一嵌入特征、所述第二嵌入特征、所述多帧图像各自的含有3D空间位置信息的2D图像特征，得到语义分割结果和 3D目标检测结果，包括：通过预先训练的特征交互网络，获得所述第一嵌入特征与所述第二嵌入特征的第一交互结果；通过所述预先训练的特征交互网络，获得所述第一嵌入特征与所述多帧图像各自的含有3D空间位置信息的2D图像特征的第二交互结果，以及，获得所述第二嵌入特征与所述多帧图像各自的含有3D空间位置信息的2D图像特征的第三交互结果；根据所述第一交互结果和所述第二交互结果，得到所述语义分割结果；根据所述第二交互结果和所述第三交互结果，得到所述3D目标检测结果。 7.根据权利要求1 ‑6任一所述的方法，其特征在于，所述多任务目标检测方法是通过预先训练的包括编码器和特征交互网络的多任务目标检测网络实现的，所述多任务目标检测网络的训练过程包括：在所述3D空间中初始化多个3D空间随机位置点；利用所述携带语义分割标签和3D目标标签的图像样本，对包括编码器和特征交互网络的多任务目标检测网络进行训练，在训练过程中更新所述多任务目标检测网络的网络参数，并更新所述3D空间随机位置点；在训练结束时，得到训练完毕的包括编码器和特征交互网络的多任务目标检测网络和多个预先训练的3D空间位置点。 8.根据权利要求1 ‑7任一所述的方法，其特征在于，所述3D目标检测结果为：所述多视角中至少一个视角下的3D目标检测结果；和/或所述3D空间下的3D目标检测结果。 9.一种多任务目标检测装置，其特征在于，包括：图像获得模块，用于获得多帧图像各自的2D图像特征和3D空间坐标，每帧图像包括多个视角下的子图像；位置对齐模块，用于对所述多帧图像的3D坐标进行3D空间下的位置对齐，得到所述多帧图像各自的对齐后3D空间坐标；融合模块，用于将所述多帧图像各自的2D图像特征与其对齐后3D空间坐标融合，得到所述多帧图像各自的含有3D空间位置信息的2D图像特征；嵌入特征获得模块，用于获得BEV空间下的多个固定位置点的第一嵌入特征，并获得所述3D空间下的多个预先训练的位置点的第二嵌入特征，所述预先训练为：学习了携带语义分割标签和3D目标标签的图像样本的训练；检测模块，用于根据所述第一嵌入特征、所述第二嵌入特征、所述多帧图像各自的含有 3D空间位置信息的2D图像特征，得到语义分割结果和3D目标检测结果。 10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器权　利　要　求　书 2/3 页 3 CN 115187776 A 3

专利 多任务目标检测方法、装置、设备及介质

专利多任务目标检测方法、装置、设备及介质