专利一种端到端的多目标识别、追踪与预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111495731.4 (22)申请日 2021.12.09 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人李静林　罗贵阳　袁泉　李冠略　薛亚清　刘志晗　周傲　 (74)专利代理机构北京永创新实专利事务所 11121 代理人周长琪 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/04(2012.01) (54)发明名称一种端到端的多目标识别、追踪与预测方法 (57)摘要本发明公开了一种端到端的多目标识别、追踪与预测方法，属于车联网、智能汽车技术领域。本发明方法包括：建立端到端的多目标识别、追踪和预测模型，包括目标检测器、目标追踪模块和轨迹预测模块；目标检测模块使用基于中心点的多目标检测器；目标追踪模块采用基于图卷积神经网络对多目标追踪；轨迹预测模块基于图网络对多目标进行运动轨迹预测，包括轨迹目的点的预测，智能体间信息传递，生成未来轨迹；本发明将端到端的多目标识别、追踪和预测模型作为一个整体，采用联合训练框架进行同时训练。本发明三个模块同时训练、相互促进，进一步提高了最终的轨迹预测精度，可以更优对多目标轨迹预测，预测轨迹更加合理。权利要求书2页说明书8页附图2页 CN 114169241 A 2022.03.11 CN 114169241 A 1.一种端到端的多目标识别、追踪与预测方法，其特征在于，包括：步骤1，建立端到端的多目标识别、追踪和预测模型；所述模型包括目标检测器、目标追踪模块和轨迹预测模块；对输入的每帧图像，利用目标检测器识别图像中所有目标物体；利用目标追踪模块对每帧识别出的每个目标物体，提取时空聚合特征，根据时空聚合特征进行目标关联，输出目标物体的轨迹关联结果；得到多目标历史轨迹，利用轨迹预测模块预测目标未来轨迹；步骤2，在目标检测模块使用基于中心点的多目标检测器进行目标检测；在目标追踪模块中采用基于图卷积神经网络对多目标追踪，输出轨迹关联矩阵结果；步骤3，在轨迹预测模块中基于图网络对多目标进行运动轨迹预测，分为三个阶段： (1)轨迹目的点的预测，包括：提取场景特征、智能体历史轨迹特征和目的点特征，输入变分自动编码模块编码为隐变量Z，对隐变量Z采样，并通过VAE解码模块解码，得到预测的目的点； (2)智能体间信息传递，包括：将交通场景构建为异质图，交通参与者作为智能体，每个交通参与者作为异质图中一个节点；对任意两个节点，若两节点间的欧式距离小于设定的阈值δs，且两节点历史轨迹的时间窗口的距离小于设定的阈值δt，则两节点间建立一条边；对构建好的异质图，使用异质图卷积神经网络学习交通参与者在运动过程中的相互影响，包括：对(1)预测的目的点编码得到目的点特征，将交通参与者的历史轨迹特征和预测的目的点特征组合形成节点特征；将相互连接的两交通参与者的节点特征Hi和Hj输入到全连接网络，得到二者之间的关系特征He(i,j)；将节点特征和关系特征输入到异质图卷积神经网络，得^ 到交通参与者交互后的节点特征H； ^ (3)生成未来轨迹，包括：用全连接网络对节点特征H进行解码，预测交通参与者的未来轨迹；步骤4，将目标检测器、目标追踪模块和轨迹预测模块作为一个整体，采用联合训练框架进行同时训练；所述的联合训练框架中，将当前帧图片输入目标检测器，得到目标识别结果，和历史轨迹一起输入目标追踪模块，得到多个目标轨迹，将多个目标轨迹和交通场景输入轨迹预测模块，得到最终的轨迹预测结果；反向传播时，损失函数由目标检测、目标追踪和轨迹预测三部分组成，目标检测器的损失包括目标的中心点和长、宽的真实值和预测值的L2距离，目标追踪模块的损失是预测的目标关联矩阵和实际的目标关联矩阵之间的L2距离，轨迹预测模块的损失是预测轨迹与真实轨迹的每个坐标点间的L2距离；将三个模块的损失求和得到最终的损失函数，并基于该损失函数反向传播，训练端到端的多目标识别、追踪和预测模型。 2.根据权利要求1所述的方法，其特征在于，所述的步骤2中，首先采用基于anchor ‑ free框架的目标检测器，将目标看作一个点进行检测，寻找目标的中心点、长度和宽度；然后，使用目标追踪模块，对输入的视频帧构建3D时空图，将每个目标作为一个节点，根据时间关联关系和空间关联关系建立节点之间的边；获取节点特征、边特征和邻接矩阵，并作为图卷积网络的输入，得到目标的时空聚合特征；根据目标的时空聚合特征进行相似度检测，权　利　要　求　书 1/2 页 2 CN 114169241 A 2利用贪婪匹配算法输出轨迹关联结果。 3.根据权利要求2所述的方法，其特征在于，所述的步骤2中，目标检测器中，将输入的当前帧的RGB图片、上一帧的RGB图片和上一帧的预测结果，先通过卷积层、批归一化层和激活函数，再按位相加得到融合后的信息；再将融合后的信息作为特征提取网络的输入，经过四个由两个卷积层和一个Relu激活函数构成的head网络得到四个输出特征图，分别是检测框中心点位置特征图、中心点置信度图、中心点对应检测框的长宽和中心点相对上一帧的位移；最后基于前三个特征图得到目标检测结果，基于第四个特征图得到用于目标追踪的运动特征。 4.根据权利要求2所述的方法，其特征在于，所述的步骤2中，目标追踪器中，将目标检测结果和历史追踪轨迹作为输入，根据历史追踪轨迹、目标检测器输出的运动特征和当前帧目标物体的空间线索构建一张基于时间和空间线索的有向图，然后使用图卷积神经网络对该有向图执行卷积操作，得到聚合了时间和空间维度信息的特征；最后基于该特征计算目标物体之间的相似度，进行当前帧目标物体和已有追踪轨迹的关联匹配，得到新的追踪轨迹。 5.根据权利要求1所述的方法，其特征在于，所述的步骤3 中，场景特征是通过将场景的俯视图输入一个卷积神经网络处理后获取，智能体历史轨迹特征是将智能体的历史轨迹坐标输入一个长短期记忆网络处理后获取，目的点特征是通过全连接层将目的点坐标编码获得。 6.根据权利要求1所述的方法，其特征在于，所述的步骤3 中，为交通场景构建的异质图表示为P＝(V,E,A,R)，其中， V为节点集合， E为边集合， A为节点类型集合， R为边类型集合；对于两个交通参与者i和j，若同时满足下面的空间关联规则和时间关联关系，则在两个交通参与者i和j间建立一条边；空间关联规则：两个交通参与者i和j间的欧式距离小于阈值 δs：时间关联规则：两个交通参与者i和j的历史轨迹的时间窗口的距离小于阈值 δt：其中， (xi,yi)、 (xj,yj)分别为交通参与者i和j的位置坐标；分别表示交通参与者i和j的历史轨迹的时间窗口长度。权　利　要　求　书 2/2 页 3 CN 114169241 A 3

专利 一种端到端的多目标识别、追踪与预测方法

专利一种端到端的多目标识别、追踪与预测方法