专利一种基于时域关系的动量视频目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210381003.9 (22)申请日 2022.04.12 (71)申请人北京工商大学地址 100048 北京市海淀区阜成路3 3号 (72)发明人蔡强　康楠　李海生　韩龙飞　常浩东　万如一　 (74)专利代理机构北京科迪生专利代理有限责任公司 1 1251 专利代理师安丽 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01) (54)发明名称一种基于时域关系的动量视频目标检测方法 (57)摘要本发明公开一种基于时域关系的动量视频目标检测方法，包括： (1)利用实例级校准方法获得时间维度的实例级校准特征图； (2)为了获取到更有用的信息，进一步利用在时域方面关键帧之间的先后关系计算相邻实例级校准特征图产生的动量偏移量； (3)将产生的动量偏移量和时域信息最新的实例级校准特征图融合，即可获得动量级实例校准特征图，用动量级实例校准特征图代替下一关键帧的实例校准特征图。本发明利用两个相邻的实例级特征图产生动量级实例校准特征图，通过这种类似于速度相对于加速度的偏移量，结合实例级特征图产生动量级实例校准特征图，以已知信息来预测未知信息的位置信息，从而提高检测精确率。权利要求书3页说明书10页附图5页 CN 114972840 A 2022.08.30 CN 114972840 A 1.一种基于时域关系的动量视频目标检测方法，其特征在于，包括以下步骤：步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证；将所有视频切割为先后顺序帧并存储；步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧，作为输入；所述五个关键帧分别表示为第一张关键帧data_before_before，第二张关键帧data_ before，第三张关键帧data，第四张关键帧data_ after，第五张关键帧data_ after_after，并分别给每个关键帧融合周围K张非关键帧图像特征图， K范围为 1到25；第二张和第四张为参考关键帧；步骤(3)选择ResNet 101深度残差网络作为特征提取主干网络，特征提取主干网络包含由100个卷积层和一个全连接层，通过恒等映射保持所述深度残差网络的最优性，使深度残差网络性能不会随着深度的影响降低；步骤(2)中得到的关键帧在经过ResNet101深度残差网络后，提取出基本特征，从而得到关键帧图像特征图；步骤(4)：将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络，通过光流网络获取相邻关键帧中的光流信息；步骤(5)：将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图；步骤(6)：利用步骤(5)得到的加强后的像素级校准特征图，通过候选区域生成网络RPN 生成候选区域，候选区域通过softmax判断生成的锚框属于正向判断还是属于负向判断，再利用边界框回归)修正锚框,得到精确的候选区域；步骤(7)：将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入，获取到能更好抓取目标移动信息的实例级校准特征图，相对于获取具体目标的像素级校准，实例级校准精确抓取物体的刚性特征；同时为利用时域关系，将加强后图像特征图中的前三张关键帧获取的实例级校准特征图，即第一个实例级校准特征图和后三张关键帧获取的实例级校准特征图，即第二个实例级校准特征图在时域上融合获取动量偏移量，中间帧即第三张关键帧被使用两次；所述动量偏移量是仿照单位时间同一目标的速度变化量，求出两个实例级校准特征图中同一个目标的位移偏移量；步骤(8)：利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图，动量级校准特征图的本质和实例级校准特征图的实质是一样的，只是动量级校准特征图带有时域信息，用来代替下一个实例级校准特征图，提高检测精度；步骤(9)：将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合，同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中，得到所有带有区域建议目标候选框的特征图；步骤(10)：采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票分类，筛选出包含真实目标的候选框，以判断区域建议目标候选框与真实目标的候选框的交并比IOU是否超过阈值，根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值，则说明该感兴趣区域中包含检测目标，并保留真实目标的候选框，否则丢弃；步骤(11)：构建ImageNet VID数据集中包含的30个目标类的多分类器，对步骤(10)中得到的目标候选框进行分类，通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类，从而实现目标分类任务；权　利　要　求　书 1/3 页 2 CN 114972840 A 2步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归，使得生成的区域建议目标候选框与真实目标的候选框重合，实现视频目标检测的精确分类。 2.根据权利要求1所述的基于时域关系的动量视频目标检测方法，其特征在于：所述步骤(2)中，提取五个关键帧时，每次提取以5张视频作为关键帧为一个批次进行，同时每个关键帧融合周围13张其他非关键帧，当非关键帧少于5张时，缺少的部分使用最后一张关键帧代替。 3.根据权利要求1所述的基于时域关系的动量视频目标检测方法，其特征在于：所述步骤(5)具体实现如下；将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图yt，如下：表示光流信息和关键帧信息聚合过程： ωt+τ→t表示距离关键帧远近距离的权重参数， K表示非关键帧图像特征图的张数； τ 标识前后不同关键帧的位置， t 表示参考关键帧的位置；其中是应用于关键帧图像特征图ft+τ→t中从帧t+τ到帧t变换的目标移位；为生成两张关键帧的光流信息； It表示当前关键帧， It+τ表示下一关键帧。 4.根据权利要求1所述的基于时域关系的动量视频目标检测方法，其特征在于：所述步骤(7)获取能更好抓取目标移动信息的实例级校准特征图如下： (71)将加强后的像素级校准特征图送入到区域建议网络RPN 中，通过公式(4,5,6)获取实例级校准特征图，其中利用感兴趣区域RoI池化操作在上生成第i个候选区： φ(·)表示池化，是光流估计结果， RoI池化使用最大池化将任何有效感兴趣区域中的特征转换为具有固定空间范围大小的实例级校准特征图；根据在第t‑τ帧和第t ‑τ/2帧之间利用回归网络R( ·)计算第i个目标候选区域在关键帧之间的相对移动，公式如下：其中表示候选区域的相对运动，由全连接层实现，通过将候选区域与真实的候选区域进行比较生成相对运动； (72)在时域上的针对不同关键帧获取实例级校准特征图如下：权　利　要　求　书 2/3 页 3 CN 114972840 A 3

专利 一种基于时域关系的动量视频目标检测方法

专利一种基于时域关系的动量视频目标检测方法