专利多粒度行为识别的模型构建方法、视频监控方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210749923.1 (22)申请日 2022.06.29 (71)申请人南京工业大学地址 211816 江苏省南京市浦口区浦珠南路30号 (72)发明人朱艾春　倪帆　邬健辉　朱晓梅　胡方强　 (74)专利代理机构北京思创大成知识产权代理有限公司 1 1614 专利代理师高爽 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01)G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称多粒度行为识别的模型构建方法、视频监控方法及系统 (57)摘要本申请公开了一种多粒度行为识别的模型构建方法、视频监控方法及系统。该系统包括网络摄像头、客户端与服务器端，客户端获取网络摄像头的流媒体视频信息，发送至服务器端；服务器端基于人体姿态检测网络模型获取人体姿态识别画线结果并返回至客户端；客户端读取人体姿态识别画线结果进行本地显示；服务器端基于多粒度行为识别模型识别动作分类识别结果并返回至客户端；客户端读取动作分类识别结果，预警不安全行为。本发明通过远程服务器连接和人工智能的手段实现不受时间地点限制地识别人员动作，提升视频监控系统对摄像头监控范围内的不安全行为主动监控能力，及时发现事故隐患。权利要求书3页说明书11页附图5页 CN 115188069 A 2022.10.14 CN 115188069 A 1.一种多粒度行为识别的模型构建方法，其特征在于，包括：设置多种不安全行为及其对应的动作分类以及人体姿态的多粒度特征，得到训练数据集，所述多粒度特征包括骨架信息、人体动作全身图像与头部区域图像；根据所述人体姿态进行网络训练，获得人体姿态检测网络模型，进而获得人体姿态识别画线结果；基于所述人体姿态识别画线结果，对所述训练数据集中的所述多粒度特征分别进行网络训练，分别获得骨架信息识别模型、全身图像识别模型、头部区域图像识别模型；将所述骨架信息识别模型、所述全身图像识别模型、所述头部区域图像识别模型进行融合，得到多粒度行为识别模型。 2.根据权利要求1所述的多粒度行为识别的模型构建方法，其中，根据所述人体姿态进行网络训练，获得人体姿态检测网络模型，进而获得人体姿态识别画线结果包括：根据视频帧I检测人体区域，输入对称空间变换网络S中，得到所述人体区域框并保存在人员全身图像Ib；将所述人体区域框输入单人姿态估计器P中，获得生成热图与关于各个骨架点的真值热图Hkn，计算所述生成热图与所述真值热图Hkn之间的误差Lm；提取所述生成热图中被高斯模糊的关节点中心，得到重构关节点坐标集合将所述人体区域框输入固定权重单人姿态估计器P ’中，计算生成热图与重构关节点坐标集合之间的误差Ls；累加误差Lm和Ls得到所述对称空间变换网络S的误差LG，并通过梯度下降法对所述对称空间变换网络S进行优化；将优化后的关节点坐标集合通过空间反变换网络D将人体姿态重新映射回原始图像中，获得所述人体姿态识别画线结果；通过梯度下降法对所述空间反变换网络D进行优化，获取基于堆叠沙漏网络的人体姿态检测网络模型。 3.根据权利要求2所述的多粒度行为识别的模型构建方法，其中，对所述训练数据集中的骨架信息进行网络训练，获得骨架信息识别模型包括：根据所述关节点坐标集合计算视频帧中的相对位置，输入双向长短期记忆神经网络L中；将双向长短期记忆神经网络L的输出向量作为卷积神经网络的输入，输出人体行为的预测动作分类r1；计算r1和实际动作分类之间的动作预测误差Lr1；累加动作预测误差Lr1，得到累加误差LCNN‑LSTM，通过梯度下降法对神经网络进行优化，获取所述骨架信息识别模型。 4.根据权利要求1所述的多粒度行为识别的模型构建方法，其中，对所述训练数据集中的人体动作全身图像进行网络训练，获取全身图像识别模型包括：权　利　要　求　书 1/3 页 2 CN 115188069 A 2将所述人体动作全身图像Ib输入图像变换器S1进行变换处理，结果为Ib’；将Ib’输入卷积神经网络 C1，得到预测动作分类r2；计算预测动作分类r2和实际动作分类之间的误差Lr2；累加误差Lr2得到卷积神经网络C1的误差Limg1，并通过梯度下降法进行优化，获取所述全身图像识别模型。 5.根据权利要求1所述的多粒度行为识别的模型构建方法，其中，对所述训练数据集中的头部区域图像进行网络训练，获取头部区域图像识别模型包括：将所述不安全行为的视频帧I 根据骨架点信息，通过OpenCV截取雨布区域图像Ia；将Ia输入图像变换器T进行变换处理，结果为Ia’；将Ia’输入卷积神经网络W，得到预测动作分类r3；计算预测动作分类r3和实际动作分类之间的误差Lr3；累加误差Lr3得到卷积神经网络W的误差Limg2，通过梯度下降法进行优化，获取所述头部区域图像识别模型。 6.利用权利要求1 ‑5中任意一项所述的多粒度行为识别的模型构建方法的一种基于多粒度行为的视频监控方法，其特征在于，包括：基于人体姿态检测网络模型获取人体姿态识别画线结果；根据所述人体姿态识别画线结果，通过骨架信息识别模型、全身图像识别模型、头部区域图像识别模型分别进行动作分类识别以及误差计算，获得3个动作类别及其对应的误差；判断3个动作类别是否相同，若相同，则以该动作类别为所述动作分类识别结果，若不同，则以所述误差最小的动作类别为所述动作分类识别结果。 7.根据权利要求6所述的基于多粒度行为的视频监控方法，其中，通过骨架信息识别模型进行动作分类识别以及误差计算包括：根据所述人体姿态识别画线结果，得到关节点骨架信息；将所述关节点骨架信息输入所述骨架信息识别模型，进行误差计算，得到基于关节点骨架信息的动作类别。 8.根据权利要求6所述的基于多粒度行为的视频监控方法，其中，通过全身图像识别模型进行动作分类识别以及误差计算包括：根据人体区域截取人体全身区域图像，得到全身图像；将所述全身图像输入所述全身图像识别模型，进行误差计算，得到基于全身图像的动作类别。 9.根据权利要求7所述的基于多粒度行为的视频监控方法，其中，通过头部区域图像识别模型进行动作分类识别以及误差计算包括：根据所述关节点骨架信息截取头部区域图像；将所述头部区域图像输入所述头部区域图像识别模型，进行误差计算，得到基于头部区域图像的动作类别。 10.一种基于多粒度行为的视频监控系统，其特征在于，包括网络摄像头、客户端与服务器端，其中，所述客户端与所述网络摄像头、所述客户端与所述服务器端均为通信连接，所述客户端获取所述网络摄像头的流媒体视频信息，发送至所述服务器端；所述服务器端基于人体姿态检测网络模型获取人体姿态识别画线结果并返回至所述权　利　要　求　书 2/3 页 3 CN 115188069 A 3

专利 多粒度行为识别的模型构建方法、视频监控方法及系统

专利多粒度行为识别的模型构建方法、视频监控方法及系统