全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210753941.7 (22)申请日 2022.06.29 (71)申请人 北京爱奇艺科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 鸿城拓展大厦10、 1 1层 (72)发明人 毕泊  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种视频检测方法、 装置、 电子设备和存储 介质 (57)摘要 本发明实施例提供了一种视频检测方法、 装 置、 电子设备和介质, 包括: 获取视频文件, 并确 定针对所述视频文件的检测目标; 从所述视频文 件中获取连续的多个视频片段, 并分别确定所述 多个视频片段的多个音视频特征信息; 将所述多 个音视频特征信息分别输入预先训练的分类模 型中, 获得对应的多个输出结果; 根据所述多个 输出结果, 从所述多个视频片段中确定候选视频 片段; 对所述候选视频片段的图像帧进行文字识 别, 获得文字识别结果; 根据所述文字识别结果 确定所述检测目标所在的目标图像帧。 根据本发 明实施例, 结合画面信息和音频信息确定检测目 标所在的候选视频片段, 并在该片段范围进行文 字识别, 从而对准确的检测目标所在的图像帧进 行定位。 权利要求书3页 说明书16页 附图8页 CN 115035509 A 2022.09.09 CN 115035509 A 1.一种视频检测方法, 其特 征在于, 所述方法包括: 获取视频文件, 并确定针对所述视频文件的检测目标; 所述检测目标包括片头结束标 志信息、 片尾开始标志信息和片尾结束标志信息中的至少一种; 从所述视频文件中获取连续的多个视频片段, 并分别确定所述多个视频片段的多个音 视频特征信息; 将所述多个音视频特征信 息分别输入预先训练的分类模型中, 获得对应的多个输出结 果; 根据所述多个输出 结果, 从所述多个视频片段中确定候选 视频片段; 对所述候选视频片段的图像帧进行文字识别, 获得文字识别结果; 根据所述文字识别结果确定所述检测目标 所在的目标图像帧。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述多个音视频特征信 息分别输入 预先训练的分类模型中, 获得对应的多个输出 结果, 包括: 将所述多个音视频特征信息分别输入所述分类模型中, 获得对应的多个置信度结果; 所述置信度结果用于表示对应的视频片段属于片头片段/正片 片段/片尾片段的置信度。 3.根据权利要求1所述的方法, 其特 征在于, 所述分类模型通过以下 方式训练: 获取用于训练的样本视频片段集; 所述样本视频片段集包括连续的多个样本视频片 段; 所述多个样本 视频片段分别标注的片段类型为片头片段或正片 片段或片尾片段; 分别确定所述多个样本 视频片段的多个样本音视频 特征信息; 使用所述多个样本音视频特征信息进行模型训练, 得到用于识别片头片段/正片片段/ 片尾片段的所述分类模型。 4.根据权利要求1所述的方法, 其特征在于, 所述分别确定所述多个视频片段的多个音 视频特征信息, 包括: 针对各个视频片段, 采用预先训练的超分辨率测试序列VGG模型提取对应的音频特征 信息, 以及, 采用预先训练的双流膨胀三维卷积网络I3D模型提取对应的视频特征信息, 将 所述音频特征信息和所述视频特征信息进 行合并, 得到该视频片段对应的所述音视频特征 信息。 5.根据权利要求4所述的方法, 其特征在于, 所述将所述音频特征信 息和所述视频特征 信息进行合并, 得到该视频片段对应的所述音视频 特征信息, 包括: 基于移位注意力 机制分别对所述音频特征信 息和所述视频特征信 息进行注意力 计算, 得到对应的注意力音频 特征信息和注意力视频 特征信息; 将所述注意力音频特征信 息和所述注意力 视频特征信 息进行拼接, 得到对应的所述音 视频特征信息。 6.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个输出结果, 从所述多个 视频片段中确定候选 视频片段, 包括: 将所述多个置信度结果分别与预设置信度阈值比较, 获得对应的多个比较结果; 根据所述多个比较结果, 从所述多个视频片段中确定所述 候选视频片段。 7.根据权利要求6所述的方法, 其特征在于, 所述候选视频片段包括用于查找所述检测 目标为所述片头结束标志信息的第一候选视频片段, 所述根据所述多个比较结果, 从所述 多个视频片段中确定所述 候选视频片段, 包括:权 利 要 求 书 1/3 页 2 CN 115035509 A 2若所述检测目标为所述片头结束标志信息, 则根据所述多个比较结果, 分别将所述多 个视频片段分类为片头片段和正片 片段; 若所述多个视频片段中存在播放 次序相邻的一个片头片段和一个正片片段, 且所述一 个正片片段在所述一个片 头片段播放完之后播放, 则将所述一个片头片段和所述一个正片 片段确定为所述第一 候选视频片段。 8.根据权利要求6所述的方法, 其特征在于, 所述候选视频片段包括用于查找所述检测 目标为所述片尾开始标志信息的第二候选视频片段, 所述根据所述多个比较结果, 从所述 多个视频片段中确定所述 候选视频片段, 包括: 若所述检测目标为所述片尾开始标志信息, 则根据所述多个比较结果, 分别将所述多 个视频片段分类为 正片片段和片尾片段; 若所述多个视频片段中存在播放 次序相邻的一个正片片段和一个片尾片段, 且所述一 个片尾片段在所述一个正片片段播放完之后播放, 则将所述一个正片片段和所述一个片 尾 片段确定为所述第二 候选视频片段。 9.根据权利要求6所述的方法, 其特征在于, 所述候选视频片段包括用于查找所述检测 目标为所述片尾结束标志信息的第三候选视频片段, 所述根据所述多个比较结果, 从所述 多个视频片段中确定所述 候选视频片段, 包括: 若所述检测目标为所述片尾结束标志信息, 则根据所述多个比较结果, 分别将所述多 个视频片段分类为 正片片段和片尾片段; 若所述多个视频片段中存在播放 次序相邻的一个片尾片段和一个正片片段, 且所述一 个正片片段在所述一个片尾片段播放完之后播放, 则将所述一个片 尾片段和所述一个正片 片段确定为所述第三 候选视频片段。 10.根据权利要求7所述的方法, 其特征在于, 所述文字识别结果包括对所述第一候选 视频片段的图像帧进 行文字识别得到的第一文字识别结果, 所述根据所述文字识别结果确 定所述检测目标 所在的目标图像帧, 包括: 将所述第一文字识别结果中的文本 内容与预设关键词 进行匹配, 并在匹配到包含所述 预设关键词的图像 帧之后, 对包含所述预设关键词的图像 帧进行跟踪, 将跟踪到的最后一 个包含所述预设 关键词的图像帧确定为所述片头结束标志信息所在的所述目标图像帧。 11.根据权利要求8所述的方法, 其特征在于, 所述文字识别结果包括对所述第二候选 视频片段的图像帧进 行文字识别得到的第二文字识别结果, 所述根据所述文字识别结果确 定所述检测目标 所在的目标图像帧, 包括: 按时间顺序遍历所述第 二候选视频片段中各个图像帧对应的第 二文字识别结果, 若连 续的多个图像帧对应的第二文字识别结果中的文本框数量大于预设的数量阈值, 则将第二 文字识别结果中的文本框数量大于预设的数量阈值的第一个图像帧确定为所述片尾开始 标志信息所在的所述目标图像帧。 12.根据权利要求9所述的方法, 其特征在于, 所述文字识别结果包括对所述第三候选 视频片段的图像帧进 行文字识别得到的第三文字识别结果, 所述根据所述文字识别结果确 定所述检测目标 所在的目标图像帧, 包括: 若所述第三文字识别结果中包含文本框, 则对包含文本框的图像帧进行跟踪, 并将跟 踪到的最后一个包含文本框的图像帧确定为所述片尾结束标志信息所在的所述目标图像权 利 要 求 书 2/3 页 3 CN 115035509 A 3

PDF文档 专利 一种视频检测方法、装置、电子设备和存储介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频检测方法、装置、电子设备和存储介质 第 1 页 专利 一种视频检测方法、装置、电子设备和存储介质 第 2 页 专利 一种视频检测方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。