专利一种无监督的端到端视频异常事件数据识别方法和装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210051701.2 (22)申请日 2022.01.17 (65)同一申请的已公布的文献号申请公布号 CN 114255447 A (43)申请公布日 2022.03.29 (73)专利权人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人王思齐　余广　王思为　蔡志平　祝恩　徐传福　吴诚堃　高翔　熊敏　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师李杨(51)Int.Cl. G06V 20/52(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员沈晴 (54)发明名称一种无监督的端到端视频异常事件数据识别方法和装置 (57)摘要本申请涉及一种无监督的端到端视频异常事件数据识别方法和装置。所述方法包括：将从无标注视频中提取出的所有无标注视频事件数据输入深度神经网络学习一个端到端的辅助任务，无需引入手工特征算子或者经典异常检测模型，通过辅助任务的训练损失实现对异常视频事件数据的粗学习，进一步精识别中，设计能够根据各个训练样本的训练损失大小自适应地降低疑似异常视频事件数据在训练中的权重的第二损失函数，实现自步异常滤除，主动排除或者降低疑似训练样本集中异常事件数据对深度神经网络的影响，加强正常视频事件数据在辅助任务学习中的主导地位，训练完成后根据视频事件数据在辅助任务学习过程中训练损失的大小来进行视频事件的异常程度打分。权利要求书3页说明书11页附图4页 CN 114255447 B 2022.09.23 CN 114255447 B 1.一种无监督的端到端视频异常事件数据识别方法，其特征在于，所述方法包括：获取待识别异常事件数据的无标注视频，在所述无标注视频的每一个视频帧上进行前景目标检测，将每一个前景目标以矩形限定框进行标识；针对当前视频帧中每一个前景目标，将当前以及相邻多个视频帧中所述前景目标所在的矩形限定框位置的图像块抽取出来，缩放到预设大小后，按时间顺序堆叠，得到包含所述前景目标的视频事件数据；将从所述无标注视频中提取出的所有未标注过的视频事件数据作为一个训练样本集输入到预设的深度神经网络中；所述训练样本集用于训练所述深度神经网络学习一个端到端的辅助任务；通过预设的第一损失函数对所述深度神经网络进行少量轮数的初步训练，初步使得正常视频事件数据和异常视频事件数据的训练损失出现分化；所述第一损失函数为训练样本集中样本的训练损失之和；初步训练之后，重构所述深度神经网络的损失函数为第二损失函数；所述第二损失函数中包括自步正则项；通过基于所述第二损失函数的自步学习算法对所述深度神经网络进行进一步训练，根据各个训练样本的训练损失大小自适应地降低疑似异常视频事件数据在训练中的权重，进一步将训练损失较大的视频事件数据作为异常事件数据和训练损失较低的正常视频事件数据区分开来。 2.根据权利要求1所述的方法，其特征在于，将从所述无标注视频中提取出的所有未标注过的视频事件数据作为一个训练样本集输入到预设的深度神经网络中，包括：将从所述无标注视频中提取出的所有未标注过的视频事件数据作为一个训练样本集输入到预设的深度神经网络中；所述深度神经网络为全卷积深度自编码器网络、 UNet网络或Transformer网络。 3.根据权利要求1所述的方法，其特征在于，所述辅助任务为压缩 ‑重建任务、压缩 ‑倒序重建任务、压缩 ‑乱序重建任务或压缩 ‑预测任务。 4.根据权利要求3所述的方法，其特征在于，当所述辅助任务为压缩 ‑重建任务时，通过预设的第一损失函数对所述深度神经网络进行少量轮数的初步训练，初步使得正常视频事件数据和异常视频事件数据的训练损失出现分化；所述第一损失函数为训练样本集中样本的训练损失之和，包括：通过预设的第一损失函数对所述深度神经网络进行少量轮数的初步训练；将输入的样本压缩为一个低维特征，再根据所述低维特征重建出输入样本的视频事件数据；所述第一损失函数为训练样本集中样本的训练损失之和；所述第一损失函数为：其中， Li( θ )代表第i个训练样本经以θ 为参数的深度神经网络压缩 ‑重建后的重建损失， n为所述训练样本集中训练样本的个数；根据训练样本训练损失的大小初步区分正常视频事件数据和异常视频事件数据。权　利　要　求　书 1/3 页 2 CN 114255447 B 25.根据权利要求1所述的方法，其特征在于，重构所述深度神经网络的损失函数为第二损失函数；所述第二损失函数中包括自步正则项，包括：重构所述深度神经网络的损失函数为第二损失函数；所述第二损失函数其中一项为所述训练样本的训练损失进行加权求和，另一项为混合自步正则项、二值自步正则项或线性自步正则项。 6.根据权利要求4所述的方法，其特征在于，当所述自步正则项为混合自步正则项时，所述第二损失函数为：其中， vi代表范围在[0,1]的、第i个训练样本重建损失的权重，为混合自步正则项，且 λ＞λ′＞0，为两个在训练过程中动态设定的超参数， λ ′＝ μ(t)+ σ(t)， λ＝max{ μ(t)+(4 ‑t·r)·σ(t), λ′}， μ(t)和σ(t)，分别代表深度网络参数第t次更新时所用的数据批中包含的视频事件数据的重建损失均值和方差， r为一个固定的收缩率。 7.根据权利要求6所述的方法，其特征在于，通过基于所述第二损失函数的自步学习算法对所述深度神经网络进行进一步训练，包括：通过基于所述第二损失函数的自步学习算法对所述深度神经网络进行进一步训练：当视频事件数据权重vi固定时，通过梯度下降方法优化神经网络参数θ；当神经网络权重参数θ固定时，对所述第二损失函数进行关于变量vi的凸优化求解，以使所述第二损失函数最小化。 8.根据权利要求7所述的方法，其特征在于，在通过基于所述第二损失函数的自步学习算法对所述深度神经网络进行进一步训练，根据各个训练样本的训练损失大小自适应地降低疑似异常视频事件数据在训练中的权重，进一步将训练损失较大的视频事件数据作为异常事件数据和训练损失较低的正常视频事件数据区分开来之后，还包括：通过每一个视频事件数据在辅助任务学习过程中训练损失的大小来对每一个视频事件数据进行异常程度打分。 9.一种无监督的端到端视频异常事件数据识别装置，其特征在于，所述装置包括：前景目标检测模块，用于从待识别异常事件数据的无标注视频中的每一个视频帧上进行前景目标检测，将每一个前景目标以矩形限定框进行标识；视频事件数据提取模块，用于针对当前视频帧中每一个前景目标，将当前以及相邻多个视频帧中所述前景目标所在的矩形限定框位置的图像块抽取出来，缩放到预设大小后，按时间顺序堆叠，得到包含所述前景目标的视频事件数据；异常事件数据粗学习模块，用于将从所述无标注视频中提取出的所有未标注过的视频事件数据作为一个训练样本集输入到预设的深度神经网络中；所述训练样本集用于训练所述深度神经网络学习一个端到端的辅助任务；通过预设的第一损失函数对所述深度神经网络进行少量轮数的初步训练，初步使得正常视频事件数据和异常视频事件数据的训练损失出现分化；所述第一损失函数为训练样本集中样本的训练损失之和；权　利　要　求　书 2/3 页 3 CN 114255447 B 3

专利 一种无监督的端到端视频异常事件数据识别方法和装置

专利一种无监督的端到端视频异常事件数据识别方法和装置