专利基于图神经网络的自动驾驶场景目标检测与跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210693653.7 (22)申请日 2022.06.19 (71)申请人重庆理工大学地址 400054 重庆市巴南区红光大道69号 (72)发明人冯欣　焦晓宁　单玉梅　兰利彬　 (74)专利代理机构重庆志合专利事务所(普通合伙) 50210 专利代理师徐传智 (51)Int.Cl. G06V 20/58(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) G06V 40/10(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于图神经网络的自动驾驶场景目标检测与跟踪方法 (57)摘要一种基于图神经网络的自动驾驶场景目标检测与跟踪方法，包括通过第一骨干网络获取上一帧图像的特征图，通过第二骨干网络获取当前帧图像的特征图；利用交叉注意力网络，建立基于目标中心点的行人目标检测网络，通过交叉注意力网络获取用于Re ‑ID任务的特征图和用于目标检测任务的特征图，并输出目标检测结果；建立基于图神经网络的目标嵌入特征提取算法，通过图神经网络对目标图进行多重神经网络以及注意力聚合，获取目标的Re ‑ID特征，用于目标跟踪，使目标在网络的一次向前传播中同时输出行人目标的检测结果和嵌入特征，减少计算冗余，使多目标跟踪流程更加简洁。权利要求书3页说明书9页附图2页 CN 115331192 A 2022.11.11 CN 115331192 A 1.一种基于图神经网络的自动驾驶场景目标检测与跟踪方法，其特征在于，包括以下步骤： S1.将视频中的上一帧图像It‑1作为第一骨干网络的输入，通过第一骨干网络获取上一帧图像的特征图Ft‑1，并从特征图Ft‑1中提取行人目标的中心特征向量Ct‑1；同时，将视频中的当前帧图像It作为第二骨干网络的输入，通过第二骨干网络获取当前帧图像的特征图Ft； S2.利用交叉注意力网络，建立基于目标中心点的行人目标检测网络，将当前帧图像的特征图Ft作为交叉注意力网络输入，通过交叉注意力网络获取用于Re ‑ID任务的特征图FT1 和用于目标检测任务的特征图FT2，并通过对特征图FT2进行卷积，输出目标检测结果，将该目标检测结果作为下一计算周期的上一帧图像； S3.建立基于图神经网络的目标嵌入特征提取算法，将上一帧图像的中心特征向量Ct‑1 和当前帧图像的特征图FT1作为图神经网络的输入；图神经网络将中心特征向量Ct‑1作为目标节点构建目标图Gt‑1，并利用特征图FT1中的特征信息产生目标节点构建目标图Gt；通过图神经网络对目标图Gt‑1和Gt进行多重神经网络以及注意力聚合，获取目标的Re ‑ ID特征，用于目标跟踪。 2.根据权利要求1所述的基于图神经网络的自动驾驶场景目标检测与跟踪方法，其特征在于： S1中，所述骨干网络采用增强版的深层聚合网络DLA ‑34。 3.根据权利要求1所述的基于图神经网络的自动驾驶场景目标检测与跟踪方法，其特征在于： S2中，通过交叉注意力网络获取特征图FT1和特征图FT2的具体步骤如下， 1)将当前帧图像经过骨干网络输出的特征图表示为采用交叉注意力网络将其通过最大池化层和平均池化层，获得统计信息 2)将统计信息通过不同的卷积层，分别生成用于Re ‑ID任务的三维特征图 T1和用于检测任务的三维特征图T2，并将中间特征图T1和T2重塑为其中N' ＝H'×W'， H’表示二维特征图的高， W ’表示二维特征图的宽， M1表示用于Re ‑ID任务的二维特征图， M2表示用于目标检测任务的二维特征图； 3)对二维特征图M1、 M2各自的转置分别执行矩阵乘法，并通过softmax层生成自相关权重映射计算公式如下：式中，表示第i个和第j个通道之间的关系，表示M1或M2在i通道的转置，表示M1或M2在 j通道的转置； 4)对二维特征图M1和M2的转置之间执行矩形乘法，并通过softm ax层生成交叉关系权重映射计算公式如下：权　利　要　求　书 1/3 页 2 CN 115331192 A 2式中， 1表示Re ‑ID任务， 2表示检测任务，表示Re‑ID任务对检测任务在第i个通道的影响，或检测任务对Re ‑ID任务在第j个通道的影响，表示Re ‑ID任务对检测任务在第i个通道的影响，表示检测任务对Re ‑ID任务在j通道的影响； 5)通过可训练参数λ 融合自相关权重和交叉关系权重，得到计算公式如下： W1/2＝ λ×WS1/S2+(1‑λ )×WM1/M2 式中， WS1/S2表示Re‑ID任务或检测任务的自相关权重， WM1/M2表示Re‑ID任务或检测任务的交叉关系权重， W1/2表示Re‑ID任务或检测任务融合后的权重映射； 6)交叉注意力网络将原始特征图Ft重新排列为的形状，其中N＝H ×W，然后对重新排列后的特征与5)中融合后的权重映射之间执行矩阵乘法，以获得Re ‑ID任务和检测任务的增强特征，将增强的特征通过残差注意力与原始特征图Ft融合，最终分别形成用于Re ‑ID 任务的特征图FT1和检测任务的特征图FT2。 4.根据权利要求1所述的基于图神经网络的自动驾驶场景目标检测与跟踪方法，其特征在于： S2中，所述行人目标检测网络的损失函数设计如下， 1)目标中心点类别损失计算式中， Lcls表示目标中心点类别损失，表示网络预测的目标中心热图， Y表示真实热图上该点属于目标中心点的概率， α 表示平衡因子，通常α ＝0.5； 2)目标中心点位置偏移损失计算式中， Loff表示目标中心点位置偏移损失， GO表示真实目标中心偏移，表示预测的坐标偏移； 3)目标区域大小损失计算式中， Lsize表示目标区域大小损失，表示目标的预测长宽， GS表示目标的真实长宽； 4)行人目标检测网络的损失计算 Ldet＝Lcls+λoffLoff+λsizeLsize 式中， λoff和 λsize通常按经验分别设置为1和0.1。 5.根据权利要求1所述的基于图神经网络的自动驾驶场景目标检测与跟踪方法，其特征在于： S3 中，将当前帧图像的特征图FT1表示为通过特征图中每个位置的特征信息产生W ×H个目标节点，构建目标图Gt，其中， W表示特征图的宽， H表示特征图的高；权　利　要　求　书 2/3 页 3 CN 115331192 A 3

专利 基于图神经网络的自动驾驶场景目标检测与跟踪方法

专利基于图神经网络的自动驾驶场景目标检测与跟踪方法