全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210381003.9 (22)申请日 2022.04.12 (71)申请人 北京工商大 学 地址 100048 北京市海淀区阜成路3 3号 (72)发明人 蔡强 康楠 李海生 韩龙飞  常浩东 万如一  (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 安丽 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于时域关系的动量视频目标检测方 法 (57)摘要 本发明公开一种基于时域关系的动量视频 目标检测方法, 包括: (1)利用实例级校准方法获 得时间维度的实例级校准特征图; (2)为了获取 到更有用的信息, 进一步利用在时域方面关键帧 之间的先后关系计算相邻实例级校准特征图产 生的动量偏移量; (3)将产生的动量偏移量和时 域信息最新的实例级 校准特征图融合, 即可获得 动量级实例校准特征图, 用动量级实例校准特征 图代替下一 关键帧的实例校准特征图。 本发明利 用两个相邻的实例级特征图产生动量级实例校 准特征图, 通过这种类似于速度相对于加速度的 偏移量, 结合实例级特征图产生动量级实例校准 特征图, 以已知信息来预测未知信息的位置信 息, 从而提高检测精确率。 权利要求书3页 说明书10页 附图5页 CN 114972840 A 2022.08.30 CN 114972840 A 1.一种基于时域关系的动量视频目标检测方法, 其特 征在于, 包括以下步骤: 步骤(1)利用ImageNet  VID数据集的视频帧之间存在的时序信息进行训练和验证; 将 所有视频切割为先后顺序帧并存 储; 步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧, 作 为输 入; 所述五个关键帧分别表示为第一张关键帧data_before_before, 第二张关键帧data_ before, 第三张关键帧data, 第四张关键帧data_ after, 第五张关键帧data_ after_after, 并分别给每个关键帧融合周围K张非关键帧图像特征图, K范围为 1到25; 第二张和 第四张为 参考关键帧; 步骤(3)选择ResNet 101深度残差网络作为特征提取主干网络, 特征提取主干网络包含 由100个卷积层和一个全连接层, 通过恒等映射保持所述深度 残差网络的最优性, 使深度 残 差网络性能不会随着深度的影 响降低; 步骤(2)中得到的关键帧在经过ResNet101深度残差 网络后, 提取 出基本特 征, 从而得到关键帧图像特 征图; 步骤(4): 将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络, 通过光流网络 获取相邻关键帧中的光 流信息; 步骤(5): 将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信 息进行聚合, 得到加强后的像素级校准特 征图; 步骤(6): 利用步骤(5)得到的加强后的像素级校准特征图, 通过候选区域生成网络RPN 生成候选区域, 候选区域通过softmax判断生 成的锚框属于正向判断还 是属于负向判断, 再 利用边界框回归)修 正锚框,得到精确的候选区域; 步骤(7): 将步骤(5)得到的加强后像素级校准特征图作 为区域建议网络RPN的输入, 获 取到能更好抓取目标移动信息的实例级校准特征图, 相对于获取具体目标的像素级校准, 实例级校准精确 抓取物体的刚性特征; 同时为利用时域关系, 将加强后图像特征图中的前 三张关键帧获取的实例级校准特征图, 即第一个实例级校准特征图和后三张关键帧获取的 实例级校准特征图, 即第二个实例级校准特征图在时域上融合获取动量偏移量, 中间帧即 第三张关键 帧被使用两次; 所述动量偏移量是仿照单位时间同一 目标的速度变化量, 求出 两个实例级校准特 征图中同一个目标的位移偏移量; 步骤(8): 利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量 级校准特征图, 动量级校准特征图的本质和实例级校准特征图的实质是一样的, 只是动量 级校准特 征图带有时域信息, 用来代替下一个实例级校准特 征图, 提高检测精度; 步骤(9): 将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征 图进行融合, 同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中, 得到所有 带有区域建议目标候选 框的特征图; 步骤(10): 采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票 分类, 筛选出包含真实目标的候选框, 以判断区域建议 目标候选框与真实目标的候选框的 交并比IOU是否超过阈值, 根据IOU的值决定候选框是否为感兴趣 区域RoI,如果超过阈值, 则说明该感兴趣区域中包 含检测目标, 并保留真实目标的候选 框, 否则丢弃; 步骤(11): 构建ImageNet  VID数据集中包含的30个目标类的多分类器, 对步骤(10)中 得到的目标候选框进 行分类, 通过投票机制判断目标候选框属于ImageNet  VID数据集中已 知的30类标签中的哪一类, 从而实现目标分类任务;权 利 要 求 书 1/3 页 2 CN 114972840 A 2步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归, 使得生成的区域建 议目标候选 框与真实目标的候选 框重合, 实现视频目标检测的精确分类。 2.根据权利要求1所述的基于时域关系的动量视频目标检测方法, 其特征在于: 所述步 骤(2)中, 提取五个关键帧时, 每次提取以5张视频作为关键帧为一个批次进 行, 同时每个关 键帧融合周围13张其他 非关键帧, 当非关键帧少于5张时, 缺少的部 分使用最后一张关键帧 代替。 3.根据权利要求1所述的基于时域关系的动量视频目标检测方法, 其特征在于: 所述步 骤(5)具体实现如下; 将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚 合, 得到加强后的像素级校准特 征图yt, 如下: 表示光流信息和关键帧信息聚合过程: ωt+τ→t表示距离关键帧远近距离的权 重参数, K表示非关键帧图像特 征图的张数; τ 标识前后不同关键帧的位置, t 表示参考关键帧的位置; 其中 是应用于关键帧图像特征图ft+τ→t中从帧t+τ到帧t变换的目标移位; 为生 成两张关键帧的光 流信息; It表示当前关键帧, It+τ表示下一关键帧。 4.根据权利要求1所述的基于时域关系的动量视频目标检测方法, 其特征在于: 所述步 骤(7)获取能更好 抓取目标移动信息的实例级校准特 征图如下: (71)将加强后的像素级校准特征图送入到区域建议网络RPN 中, 通过公式(4,5,6)获取 实例级校准特征图, 其中 利用感兴趣 区域RoI池化操作在 上生成第i个候 选区: φ(·)表示池化, 是光流估计结果, RoI池化使用最大池化将任何有效感兴 趣区域中的特 征转换为具有固定空间范围大小的实例级校准特 征图; 根据 在第t‑τ帧和第t ‑τ/2帧之间利用回归网络R( ·)计算第i个目标候选区域在 关键帧之间的相对移动, 公式如下: 其中 表示候选区域的相对运动, 由全连接层实现, 通过 将候选区域与真实的候选区域进行比较生成相对运动; (72)在时域上的针对不同关键帧获取实例级校准特 征图如下: 权 利 要 求 书 2/3 页 3 CN 114972840 A 3

.PDF文档 专利 一种基于时域关系的动量视频目标检测方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时域关系的动量视频目标检测方法 第 1 页 专利 一种基于时域关系的动量视频目标检测方法 第 2 页 专利 一种基于时域关系的动量视频目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:33:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。