专利一种基于重识别和方位感知的实时跨摄像头行人跟踪方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111654112.5 (22)申请日 2021.12.3 0 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人姜明　高骏涛　张旻　李鹏飞　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06K 9/62(2022.01) (54)发明名称一种基于重识别和方位感知的实时跨摄像头行人跟踪方法 (57)摘要本发明公开了一种基于重识别和方位感知的实时跨摄像头行人跟踪方法。本发明包括以下步骤： (1)行人检测， (2)外观特征提取， (3)行人方位感知， (4)单摄像头目标跟踪， (5)基于层次聚类的跨摄像头轨迹关联。本发明通过基于深度学习的方位估计网络预测行人图像的方位，为行人重识别特征提供方位信息，减轻了由于摄像头视角、行人姿态造成的行人外观特征差距，同时，利用行人的空间信息缩小了跨摄像头轨迹关联时的搜索范围，提高了跨摄像头目标跟踪方法的实时性。权利要求书3页说明书5页附图1页 CN 114419669 A 2022.04.29 CN 114419669 A 1.一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于包括如下步骤：步骤(1)利用行人重识别数据集训练行人重识别模型，该模型用于提取行人外观特征；步骤(2)设计行人方位感知网络，构建行人方位数据集，用于训练行人方位感知网络；步骤(3)捕获每个摄像头的输入视频流，开启多线程读取每个视频流的图像帧存储到队列中；每个线程读取一个视频流的图像帧；步骤(4)逐帧读取队列中存储的图像，使用行人检测算法对每一张图像进行检测，得到行人的边界框信息；步骤(5)利用步骤(1)中训练的行人重识别模型提取步骤(4)中每一个行人边界框的外观特征；步骤(6)利用步骤(2)中训练的方位感知模型提取步骤(4)中每一个行人边界框的方位信息；步骤(7)利用卡尔曼滤波预测每个行人的运动信息，运动信息结合行人重识别模型提取的外观特征共同完成单摄像头下的目标跟踪，得到单摄像头下行人的运动轨迹；步骤(8)利用行人的方位信息对行人外观特征进行分类，将单摄像头下的运动轨迹进行跨摄像头轨迹关联，为同一行人在不同摄像头下的运动轨迹分配同一ID，从而完成跨摄像头行人跟踪。 2.根据权利要求1所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(1)具体实现过程如下： 1‑1以Strong Baseline行人重识别模型为基准，在模型的各个阶段之间添加注意力模块，该注意力模块由通道注意力和空间注意力组成，表示为空间相关的注意力权重S和通道相关的注意力权重Vc之间的张量乘法，计算过程如公式(1)所示； V＝S×Vc (1) 1‑2使用Market1501和DukeMTMC ‑reID这两个行人重识别领域的基准数据集对行人重识别模型进行训练；模型训练中使用两类损失：困难三元组损失和交叉熵损失。 3.根据权利要求1所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(2)具体实现过程如下： 2‑1设计行人方位感知网络实现行人方位估计；将人的朝向分为正面、背面和侧面，将 DukeMTMC‑reID数据集中的数据分为以上三类，以此构建行人方位数据集； 2‑2使用Alpha Pose模型获取上半部分的人体关键点信息，该模型能够得到上半部分的人体关键点信息Fbody＝{fls， frs， flh， frh}、耳朵关键点信息Fe＝{fle， fre}，以及人体关键点信息置信度和耳朵关键点信息置信度； 2‑3将人体方位估计当做一个分类任务，设计一个行人方位估计模型，行人方位估计模型包括输入层、 3个全连接层和输出层，并在输出层的后面加入softmax层，将输出结果转换为属于不同类别的可能性大小；以人体关键点信息Fbody、耳朵关键点信息Fe、人体关键点信息置信度和耳朵关键点信息置信度作为输入， 3个朝向状态作为输出，训练得到行人方位估计模型。 4.根据权利要求1或3所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于步骤(3)使用视频解码器ffmpeg，以30fps的帧率捕获每个摄像头下的视频权　利　要　求　书 1/3 页 2 CN 114419669 A 2流，并将图像帧存储到队列中。 5.根据权利要求4所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(4)具体实现过程如下： 4‑1依次读取摄像头视频流存储在队列中的每帧图像，使用SSD算法对图像进行行人检测，得到每一个行人的边界框b＝[x， y， w， h]，其中[ x， y]为边界框左上角像素坐标， [w， h]为边界框宽度和高度。 6.根据权利要求5所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(5)具体实现过程如下： 5‑1使用步骤(4)中得到的行人边界框，在对应图像帧中截取行人图像表示第j 个摄像头检测到的第i个行人图像；将行人图像输入到步骤(1)中得到的行人重识别模型，得到行人的外观特征表示第j个摄像头检测到的第i个行人的外观特征。 7.根据权利要求6所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(6)具体实现过程如下： 6‑1使用Alpha Pose模型获取步骤(5)中每一张行人图像的人体关键点信息Fbody、耳朵关键点信息Fe、人体关键点信息置信度和耳朵关键点信息置信度，并将其输入步骤(2)中的得到的行人方位估计模型，获取每一张行人图像中行人的方位信息表示第j个摄像头检测到的第i个行人的方位信息。 8.根据权利要求7所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，其特征在于所述步骤(7)具体实现过程如下： 7‑1使用一个基于常量速度模型和线性观测模型的标准卡尔曼滤波器进行目标运动状态的预测，预测结果为(u， p， w， h， vu， vp， vw， vh， )，由行人边界框的中心坐标(u， p)，边界框宽 w，边界框高h，以及各自的速度变化值vu， vp， vw， vh组成；将预测结果表示为行人的运动状态信息； 7‑2采用马氏距离表示第m个检测目标和第n个轨迹之间的运动状态相似度，如公式(2) 所示，其中dm表示第m个检测目标的运动信息， yn表示第n个轨迹的运动信息， Sn是由卡尔曼滤波器预测得到的第n个轨迹在当前观测空间的协方差矩阵；使用余弦距离计算第m个检测目标和第n个轨迹之间的外观特征相似度，如公式(3)所示， fm表示第m个检测目标的外观特征信息， fn表示第n个轨迹的外观特征信息；通过线性加权融合运动状态相似度v(n， m)和外观特征相似度f(n， m)，构建检测目标和轨迹之间的代价矩阵D，如公式(4)所示， α 是超参数，用于调整不同项的权重；最后采用匈牙利算法完成检测目标和轨迹之间的匹配任务，实现单摄像头下的目标跟踪； f(n， m)＝cos(fm， fn) (3) D(n， m)＝α v(n， m)+(1 ‑α )f(n， m) (4)。 9.根据权利要求8所述的一种基于重识别和方位感知的实时跨摄像头行人跟踪方法，权　利　要　求　书 2/3 页 3 CN 114419669 A 3

专利 一种基于重识别和方位感知的实时跨摄像头行人跟踪方法

专利一种基于重识别和方位感知的实时跨摄像头行人跟踪方法