专利一种视频检测方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210753941.7 (22)申请日 2022.06.29 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区海淀北一街2号鸿城拓展大厦10、 1 1层 (72)发明人毕泊　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师吕俊秀 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种视频检测方法、装置、电子设备和存储介质 (57)摘要本发明实施例提供了一种视频检测方法、装置、电子设备和介质，包括：获取视频文件，并确定针对所述视频文件的检测目标；从所述视频文件中获取连续的多个视频片段，并分别确定所述多个视频片段的多个音视频特征信息；将所述多个音视频特征信息分别输入预先训练的分类模型中，获得对应的多个输出结果；根据所述多个输出结果，从所述多个视频片段中确定候选视频片段；对所述候选视频片段的图像帧进行文字识别，获得文字识别结果；根据所述文字识别结果确定所述检测目标所在的目标图像帧。根据本发明实施例，结合画面信息和音频信息确定检测目标所在的候选视频片段，并在该片段范围进行文字识别，从而对准确的检测目标所在的图像帧进行定位。权利要求书3页说明书16页附图8页 CN 115035509 A 2022.09.09 CN 115035509 A 1.一种视频检测方法，其特征在于，所述方法包括：获取视频文件，并确定针对所述视频文件的检测目标；所述检测目标包括片头结束标志信息、片尾开始标志信息和片尾结束标志信息中的至少一种；从所述视频文件中获取连续的多个视频片段，并分别确定所述多个视频片段的多个音视频特征信息；将所述多个音视频特征信息分别输入预先训练的分类模型中，获得对应的多个输出结果；根据所述多个输出结果，从所述多个视频片段中确定候选视频片段；对所述候选视频片段的图像帧进行文字识别，获得文字识别结果；根据所述文字识别结果确定所述检测目标所在的目标图像帧。 2.根据权利要求1所述的方法，其特征在于，所述将所述多个音视频特征信息分别输入预先训练的分类模型中，获得对应的多个输出结果，包括：将所述多个音视频特征信息分别输入所述分类模型中，获得对应的多个置信度结果；所述置信度结果用于表示对应的视频片段属于片头片段/正片片段/片尾片段的置信度。 3.根据权利要求1所述的方法，其特征在于，所述分类模型通过以下方式训练：获取用于训练的样本视频片段集；所述样本视频片段集包括连续的多个样本视频片段；所述多个样本视频片段分别标注的片段类型为片头片段或正片片段或片尾片段；分别确定所述多个样本视频片段的多个样本音视频特征信息；使用所述多个样本音视频特征信息进行模型训练，得到用于识别片头片段/正片片段/ 片尾片段的所述分类模型。 4.根据权利要求1所述的方法，其特征在于，所述分别确定所述多个视频片段的多个音视频特征信息，包括：针对各个视频片段，采用预先训练的超分辨率测试序列VGG模型提取对应的音频特征信息，以及，采用预先训练的双流膨胀三维卷积网络I3D模型提取对应的视频特征信息，将所述音频特征信息和所述视频特征信息进行合并，得到该视频片段对应的所述音视频特征信息。 5.根据权利要求4所述的方法，其特征在于，所述将所述音频特征信息和所述视频特征信息进行合并，得到该视频片段对应的所述音视频特征信息，包括：基于移位注意力机制分别对所述音频特征信息和所述视频特征信息进行注意力计算，得到对应的注意力音频特征信息和注意力视频特征信息；将所述注意力音频特征信息和所述注意力视频特征信息进行拼接，得到对应的所述音视频特征信息。 6.根据权利要求2所述的方法，其特征在于，所述根据所述多个输出结果，从所述多个视频片段中确定候选视频片段，包括：将所述多个置信度结果分别与预设置信度阈值比较，获得对应的多个比较结果；根据所述多个比较结果，从所述多个视频片段中确定所述候选视频片段。 7.根据权利要求6所述的方法，其特征在于，所述候选视频片段包括用于查找所述检测目标为所述片头结束标志信息的第一候选视频片段，所述根据所述多个比较结果，从所述多个视频片段中确定所述候选视频片段，包括：权　利　要　求　书 1/3 页 2 CN 115035509 A 2若所述检测目标为所述片头结束标志信息，则根据所述多个比较结果，分别将所述多个视频片段分类为片头片段和正片片段；若所述多个视频片段中存在播放次序相邻的一个片头片段和一个正片片段，且所述一个正片片段在所述一个片头片段播放完之后播放，则将所述一个片头片段和所述一个正片片段确定为所述第一候选视频片段。 8.根据权利要求6所述的方法，其特征在于，所述候选视频片段包括用于查找所述检测目标为所述片尾开始标志信息的第二候选视频片段，所述根据所述多个比较结果，从所述多个视频片段中确定所述候选视频片段，包括：若所述检测目标为所述片尾开始标志信息，则根据所述多个比较结果，分别将所述多个视频片段分类为正片片段和片尾片段；若所述多个视频片段中存在播放次序相邻的一个正片片段和一个片尾片段，且所述一个片尾片段在所述一个正片片段播放完之后播放，则将所述一个正片片段和所述一个片尾片段确定为所述第二候选视频片段。 9.根据权利要求6所述的方法，其特征在于，所述候选视频片段包括用于查找所述检测目标为所述片尾结束标志信息的第三候选视频片段，所述根据所述多个比较结果，从所述多个视频片段中确定所述候选视频片段，包括：若所述检测目标为所述片尾结束标志信息，则根据所述多个比较结果，分别将所述多个视频片段分类为正片片段和片尾片段；若所述多个视频片段中存在播放次序相邻的一个片尾片段和一个正片片段，且所述一个正片片段在所述一个片尾片段播放完之后播放，则将所述一个片尾片段和所述一个正片片段确定为所述第三候选视频片段。 10.根据权利要求7所述的方法，其特征在于，所述文字识别结果包括对所述第一候选视频片段的图像帧进行文字识别得到的第一文字识别结果，所述根据所述文字识别结果确定所述检测目标所在的目标图像帧，包括：将所述第一文字识别结果中的文本内容与预设关键词进行匹配，并在匹配到包含所述预设关键词的图像帧之后，对包含所述预设关键词的图像帧进行跟踪，将跟踪到的最后一个包含所述预设关键词的图像帧确定为所述片头结束标志信息所在的所述目标图像帧。 11.根据权利要求8所述的方法，其特征在于，所述文字识别结果包括对所述第二候选视频片段的图像帧进行文字识别得到的第二文字识别结果，所述根据所述文字识别结果确定所述检测目标所在的目标图像帧，包括：按时间顺序遍历所述第二候选视频片段中各个图像帧对应的第二文字识别结果，若连续的多个图像帧对应的第二文字识别结果中的文本框数量大于预设的数量阈值，则将第二文字识别结果中的文本框数量大于预设的数量阈值的第一个图像帧确定为所述片尾开始标志信息所在的所述目标图像帧。 12.根据权利要求9所述的方法，其特征在于，所述文字识别结果包括对所述第三候选视频片段的图像帧进行文字识别得到的第三文字识别结果，所述根据所述文字识别结果确定所述检测目标所在的目标图像帧，包括：若所述第三文字识别结果中包含文本框，则对包含文本框的图像帧进行跟踪，并将跟踪到的最后一个包含文本框的图像帧确定为所述片尾结束标志信息所在的所述目标图像权　利　要　求　书 2/3 页 3 CN 115035509 A 3

专利 一种视频检测方法、装置、电子设备和存储介质

专利一种视频检测方法、装置、电子设备和存储介质