专利视频处理方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210302740.5 (22)申请日 2022.03.24 (71)申请人京东科技信息技术有限公司地址 100176 北京市北京经济技术开发区科创十一街18号院2号楼6层6 01 (72)发明人陈智勇　于伟　郑少杰　王林芳　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)H04N 5/262(2006.01) H04N 5/265(2006.01) H04N 7/18(2006.01) (54)发明名称视频处理方法、装置、计算机设备及存储介质 (57)摘要本公开提出一种视频处理方法、装置、计算机设备及存储介质，该方法包括：对视频进行分解处理，得到多个视频片段，确定与多个视频片段分别对应的多个动作事件信息，并根据动作事件信息，从多个视频片段中确定出目标视频片段，从目标视频片段中识别出对象描述信息，以及根据对象描述信息，确定视频所描述场景中是否发生目标动作事件。由于是先对视频进行分解处理，基于分解得到多个视频片段确定出目标视频片段，围绕该目标视频片段对场景中的目标动作事件进行识别判定，实现快速地围绕该目标视频片段识别判定出目标动作事件，有效降低目标动作事件识别判定消耗的计算资源，提升目标动作事件的识别判定效果。权利要求书4页说明书16页附图6页 CN 114758271 A 2022.07.15 CN 114758271 A 1.一种视频处理方法，其特征在于，包括：对视频进行分解处理，得到多个视频片段；确定与所述多个视频片段分别对应的多个动作事件信息，并根据所述动作事件信息，从所述多个视频片段中确定出目标视频片段；从所述目标视频片段中识别出对象描述信息；以及根据所述对象描述信息，确定所述视频所描述场景中是否发生目标动作事件。 2.如权利要求1所述的方法，其特征在于，所述目标视频片段的数量是多个，在所述从所述目标视频片段中识别出对象描述信息之前，还包括：从多个所述目标视频片段识别出至少两个待合并视频片段；对所述至少两个待合并视频片段进行合并处理，得到合并视频片段；其中，所述从所述目标视频片段中识别出对象描述信息，包括：从所述目标视频片段和所述合并视频片段中识别出所述对象描述信息。 3.如权利要求2所述的方法，其特征在于，所述动作事件信息包括：动作事件类型，动作事件的起止时间；其中，所述从多个所述目标视频片段识别出至少两个待合并视频片段，包括：确定相邻所述目标视频片段之间的所述起止时间的间隔值；如果所述间隔值小于或等于间隔阈值，且所述相邻所述目标视频片段的所述动作事件类型相同，则将所述相邻所述目标视频片段作为所述待合并视频片段。 4.如权利要求1所述的方法，其特征在于，所述对视频进行分解处理，得到多个视频片段，包括：确定所述视频的总时长；对所述总时长进行切分处理，得到多个时长段；根据所述多个时长段分别对所述视频进行分割处理，得到所述多个视频片段。 5.如权利要求3所述的方法，其特征在于，所述确定与所述多个视频片段分别对应的多个动作事件信息，并根据所述动作事件信息，从所述多个视频片段中确定出目标视频片段，包括：将所述多个视频片段分别输入至预训练的时间动作定位模型中，得到所述时间动作定位模型输出的多个动作事件信息，所述动作事件信息还包括：识别评分值；选取大于或等于评分阈值的所述识别评分值所属动作事件信息相应的视频片段，作为所述目标视频片段；其中，预先采用样本视频片段、所述样本视频片段的样本动作事件信息训练初始的第一人工智能模型，直至所述第一人工智能模型收敛，将训练得到的所述第一人工智能模型作为所述时间动作定位模型。 6.如权利要求5所述的方法，其特征在于，所述时间动作定位模型包括：视频特征提取子模型，与所述视频特征提取子模型相连接的时间回归子模型、类别分类子模型，其中，所述将所述多个视频片段分别输入至预训练的时间动作定位模型中，得到所述时间动作定位模型输出的多个动作事件信息，包括：将所述多个视频片段分别输入至所述视频特征提取子模型中，得到所述视频特征提取子模型输出的多个视频特征；权　利　要　求　书 1/4 页 2 CN 114758271 A 2采用所述时间回归子模型分别对所述多个视频特征进行动作事件的起止时间的识别，得到与所述多个动作事件分别对应的多个起止时间；采用所述类别分类子模型分别对所述多个视频特征进行动作事件的类型的识别，得到与所述多个动作事件分别对应的多个动作事件类型；根据所述动作事件类型和所述动作事件的起止时间，对从相应所述视频特征中识别所述动作事件的情况进行评分，得到识别评分值；其中，所述动作事件类型、所述动作事件的起止时间，以及所述识别评分被共同作为所述动作事件信息。 7.如权利要求1所述的方法，其特征在于，所述从所述目标视频片段中识别出对象描述信息，包括：从所述目标视频片段中识别出多个目标对象；确定所述多个目标对象分别对应的多个对象类别和多个位置信息；确定不同所述目标对象之间的交互状态信息和相对运动信息；将所述多个对象类别、所述多个位置信息、所述交互状态信息以及所述相对运动信息共同作为所述对象描述信息。 8.如权利要求7所述的方法，其特征在于，所述根据所述对象描述信息，确定所述视频所描述场景中是否发生目标动作事件，包括：将所述多个对象类别、所述多个位置信息、所述交互状态信息以及所述相对运动信息分别输入至预训练的动作事件识别模型中，以得到所述动作事件识别模型输出的指示所述视频所描述场景中是否发生所述目标动作事件的识别结果；其中，预先采用样本对象描述信息、所述样本对象描述信息所属的样本视频训练初始的第二人工智能模型，直至所述第二人工智能模型收敛，将训练得到的所述第二人工智能模型作为所述动作事件识别模型。 9.如权利要求8所述的方法，其特征在于，所述方法还包括：接收业务场景需求信息；根据所述业务场景需求信息，生成与所述样本对象描述信息对应的标注识别结果，所述标注识别结果指示所述样本视频所描述场景中是否发生所述目标动作事件的识别结果；其中，所述标注识别结果被用于确定所述第二人工智能模型收敛的时机。 10.一种视频处理装置，其特征在于，包括：分解模块，用于对视频进行分解处理，得到多个视频片段；第一确定模块，用于确定与所述多个视频片段分别对应的多个动作事件信息，并根据所述动作事件信息，从所述多个视频片段中确定出目标视频片段；第一识别模块，用于从所述目标视频片段中识别出对象描述信息；以及第二确定模块，用于根据所述对象描述信息，确定所述视频所描述场景中是否发生目标动作事件。 11.如权利要求10所述的装置，其特征在于，所述目标视频片段的数量是多个，还包括：第二识别模块，用于在所述从所述目标视频片段中识别出对象描述信息之前，从多个所述目标视频片段识别出至少两个待合并视频片段；合并模块，用于对所述至少两个待合并视频片段进行合并处理，得到合并视频片段；权　利　要　求　书 2/4 页 3 CN 114758271 A 3

专利 视频处理方法、装置、计算机设备及存储介质

专利视频处理方法、装置、计算机设备及存储介质