全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210249223.6 (22)申请日 2022.03.14 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 张帆 周文 卢靓妮  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 贺晓蕾 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/22(2022.01) G06V 10/46(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06K 9/62(2022.01) (54)发明名称 视频边框识别方法、 装置、 可读介质及电子 设备 (57)摘要 本公开涉及一种视频边框识别方法、 装置、 可读介质及电子设备, 该视频边框识别方法通过 将该目标视频划分为多个子视频; 从每个该子视 频中抽取预设数量帧待识别图像, 以得到多帧待 识别图像; 然后通过预设边框识别模 型获取该多 帧待识别图像对应的多尺度的特征图集合, 根据 该特征图集合中的空间分辨率最小的特征图确 定该目标视频是否存在边框; 并在确定该目标视 频存在边框的情况下, 通过对该特征图集合中不 同尺度的特征图进行融合, 以得到待定特征图, 根据该待定特征图预测该目标位置; 能够同时考 虑视频的时序信息以及空间信息, 也能够对视频 的深层语义特征和浅层空间特征进行有效融合, 从而能够有效提升边框位置识别结果的准确性。 权利要求书3页 说明书15页 附图5页 CN 114596529 A 2022.06.07 CN 114596529 A 1.一种视频边框识别方法, 其特 征在于, 所述方法包括: 获取待识别的目标视频, 并将所述目标视频划分为多个子 视频; 从每个所述子 视频中抽取 预设数量帧待识别图像, 以得到多帧待识别图像; 将所述多帧待识别图像输入预设边框识别模型, 以使所述预设边框识别模型输出边框 识别结果, 所述边框识别结果用于表征所述 目标视频是否存在边框, 以及在所述 目标视频 存在边框的情况 下, 所述边框的目标位置; 其中, 所述预设边框识别模型用于, 获取所述多帧待识别图像对应的多尺度的特征图 集合, 根据所述特征图集合中的空间分辨率最小的特征图确定所述目标视频是否存在边 框; 并在确定所述 目标视频存在边框的情况下, 通过对所述特征图集合中不同尺度的特征 图进行融合, 以得到待定特 征图, 根据所述待定特 征图预测所述目标位置 。 2.根据权利要求1所述的方法, 其特征在于, 所述预设边框识别模型包括主干网络模 块, 特征融合模块, 第一分类模块和 第二分类模块, 所述主干网络模块包括多级 特征提取子 网络, 不同级的所述特征提取子网络用于提取不同尺度的特征图; 所述主干网络模块与所 述特征融合模块和所述第一分类模块耦合, 所述特征融合模块还与所述第二分类模块耦 合; 所述预设边框识别模型用于: 获取每帧待识别图像对应的多通道特 征图; 将多个所述子视频对应的多通道特征图进行拼接后输入所述主干网络模块, 以使多级 所述特征提取子网络 输出多个指定尺度的特 征图, 以得到所述特 征图集合; 通过所述第一分类模块根据所述特征图集合中所述空间分辨率最小的特征图确定所 述目标视频 是否存在边框; 在确定所述目标视频存在边框的情况下, 通过所述特征融合模块对所述多个指定尺度 的特征图进行融合, 以得到所述待定特 征图; 通过所述第 二分类模块对所述待定特征图进行行池化处理以得到第 一目标特征图, 对 所述待定特 征图进行列池化处 理, 以得到第二目标 特征图; 根据所述第 一目标特征图预测所述边框 中角点的纵坐标, 根据 所述第二目标特征图预 测所述述边框中角点的横坐标。 3.根据权利要求2所述的方法, 其特征在于, 所述多个指定尺度的特征图包括第 一尺度 的第一特征图, 第二尺度的第二特征图和第三尺度的第三特征图, 所述第一尺度小于所述 第二尺度, 所述第二尺度小于所述第三尺度, 所述通过所述特征融合模块对所述多个指定 尺度的特 征图进行融合, 以得到所述待定特 征图, 包括: 将多个所述子视频对应的所述第 一特征图拼接后进行卷积操作和上采样处理, 以得到 与所述第二特 征图尺度相同的第一指定特 征图; 将多个所述子视频对应的所述第 二特征图拼接后进行卷积操作, 以得到第 二指定特征 图; 根据所述第一指定特征图和所述第二指定特征图确定与所述第三特征图尺度相同的 第三指定特 征图; 对所述第三指定特征图和所述第 三特征图进行卷积操作和上采样处理, 以得到目标尺 度的所述待定特 征图。 4.根据权利要求2所述的方法, 其特征在于, 所述通过所述第 二分类模块对所述待定特权 利 要 求 书 1/3 页 2 CN 114596529 A 2征图进行行池化处理以得到第一 目标特征图, 对所述待定特征图进行列池化处理, 以得到 第二目标 特征图, 包括: 获取所述待定特 征图中每行 元素的均值, 以得到所述第一目标 特征图; 获取所述待定特 征图中每列元 素的均值, 以得到所述第二目标 特征图。 5.根据权利要求2所述的方法, 其特征在于, 所述第二分类模块包括第一分类器, 第二 分类器, 第三分类器和第四分类器, 所述根据所述第一 目标特征图预测所述边框中角点的 纵坐标, 根据所述第二目标 特征图预测所述 述边框中角点的横坐标, 包括: 将所述第一目标特征图分别 输入所述第 一分类器和所述第 二分类器, 以使所述第 一分 类器输出视频的左上角的纵坐标, 所述第二分类 器输出视频的右下角的纵坐标; 将所述第二目标特征图分别 输入所述第 三分类器和所述第四分类器, 以使所述第 三分 类器输出视频左上角的横坐标, 所述第四分类 器输出视频右下角的横坐标。 6.根据权利要求1所述的方法, 其特征在于, 所述获取待识别的目标视频, 并将所述目 标视频划分为多个子 视频, 包括: 按照所述目标视频的时序, 将所述目标视频划分为前 段视频, 中间视频和后段视频。 7.根据权利要求1所述的方法, 其特 征在于, 所述预设边框识别模型, 还用于: 根据所述特 征图集合中的空间分辨 率最小的特 征图确定所述目标视频的边框类别。 8.根据权利要求1 ‑7任一项所述的方法, 其特征在于, 所述预设边框识别模型通过以下 方式训练得到: 获取多个视频样本数据, 所述视频样本数据中包括样本视频, 所述样本视频是否存在 边框的第一标注数据以及边框位置的第二标注数据; 将每个所述样本视频划分为多个子视频样本, 并从每个所述子视频样本 中抽取预设数 量帧待识别图像样本, 以得到多帧待识别图像样本; 将所述多帧待识别图像样本输入预设初始模型, 以使所述预设初始模型获取所述多帧 待识别图像样本对应的多尺度的特征图集合, 根据所述特征图集合中的空间分辨率最小的 特征图确定所述目标视频是否存在边框的预测概率; 并在确定所述样本视频存在边框的情 况下, 通过对所述特征图集合中不同尺度的特征图进 行融合, 以得到待定特征图样本, 对所 述待定特征图样本进 行行池化处理以得到第一目标特征图样本, 并对所述待定特征图进 行 列池化处理, 以得到第二 目标特征图样本; 根据所述第一 目标特征图样本和所述第二 目标 特征图样本确定所述 边框的预测位置; 根据所述预测概率和所述第 一标注数据通过第 一预设损失函数获取第 一损失值, 根据 所述预测位置和所述第二标注数据通过第二预设损失函数获取第二损失值; 根据所述第 一损失值和所述第 二损失值对所述预设初始模型进行迭代训练, 以得到所 述预设边框识别模型。 9.一种视频边框识别装置, 其特 征在于, 所述装置包括: 第一获取模块, 被配置为获取待识别的目标视频, 并将所述目标视频划分为多个子视 频; 第二获取模块, 被配置为从每个所述子视频中抽取预设数量帧待识别图像, 以得到多 帧待识别图像; 确定模块, 被配置为将所述多帧待识别图像输入预设边框识别模型, 以使所述预设边权 利 要 求 书 2/3 页 3 CN 114596529 A 3

.PDF文档 专利 视频边框识别方法、装置、可读介质及电子设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频边框识别方法、装置、可读介质及电子设备 第 1 页 专利 视频边框识别方法、装置、可读介质及电子设备 第 2 页 专利 视频边框识别方法、装置、可读介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。