专利拍摄行为检测方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210371875.7 (22)申请日 2022.04.11 (71)申请人平安科技（深圳）有限公司地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人朱禹萌　陆进　刘玉宇　肖京　 (74)专利代理机构北京市京大律师事务所 11321 专利代理师沈克琪 (51)Int.Cl. G06V 40/20(2022.01) G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 20/52(2022.01)G06V 10/25(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称拍摄行为检测方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术领域，公开了一种拍摄行为检测方法、装置、设备及存储介质，用于提高人体行为识别的准确度。拍摄行为检测方法包括：通过预置的监控设备获取目标人员的单帧视频图像；通过目标检测网络对单帧视频图像进行标志物识别；若单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测；若图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成对应的摄像头透视变换平面；若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端。权利要求书3页说明书15页附图4页 CN 114743264 A 2022.07.12 CN 114743264 A 1.一种拍摄行为检测方法，其特征在于，所述拍摄行为检测方法包括：当目标人员处于预置的检测区域时，通过预置的监控设备获取所述目标人员的单帧视频图像，其中，所述监控设备用于检测所述检测区域，所述检测区域为所述监控设备所拍摄的区域；通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，其中，所述标志物用于指示图像采集设备；若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，其中，所述候选状态用于指示所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联；若所述摄像头透视变换平面和所述单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定所述图像采集设备处于拍摄状态，并生成预警信息，将所述预警信息发送至预警终端，其中，所述拍摄状态用于指示所述目标人员存在拍摄行为。 2.根据权利要求1所述的拍摄行为检测方法，其特征在于，所述通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，包括：通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层；通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率；若所述标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中存在图像采集设备；若所述标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中未存在图像采集设备。 3.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，包括：通过目标检测网络的主干特征提取网络对所述单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；将所述十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。 4.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层，包括：权　利　要　求　书 1/3 页 2 CN 114743264 A 2通过所述目标检测网络的加强特征提取网络对所述三个有效特征层中的第三有效特征层进行卷积和上采样，并与所述第二有效特征层进行结合和特征提取，得到上采样特征图；将所述上采样特征图进行卷积和上采样，并与所述第一有效特征层进行结合和特征提取，得到第一强化特征层；将所述第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；将所述第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。 5.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率，包括：通过所述目标检测网络的预测网络对所述三个强化特征层中的每个强化特征层进行标志物预测，得到所述每个强化特征层对应的三个标志物预测结果；在所述每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成所述每个强化特征层的标志物候选结果；根据所述每个强化特征层的标志物候选结果，生成标志物预测概率。 6.根据权利要求1所述的拍摄行为检测方法，其特征在于，所述若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果，包括：若所述标志物识别结果为存在图像采集设备，则通过目标检测网络对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；根据交并比函数、所述图像采集设备位置框和所述手部位置框，得到第一交并比值，其中，所述第一交并比值用于指示所述图像采集设备和所述目标人员的手部的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框和所述侧脸位置框，得到第二交并比值，其中，所述第二交并比值用于指示所述图像采集设备与所述目标人员的手部和侧脸的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框、所述侧脸位置框和所述耳部位置框，得到第三交并比值，其中，所述第三交并比值用于指示所述图像采集设备与所述目标人员的手部、侧脸和耳部的位置关联程度；若所述第一交并比值大于或等于阈值，且所述第二交并比值小于阈值和/或所述第三交并比值小于阈值，则确定所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/ 或所述耳部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于候选状态；若所述第一交并比值大于或等于阈值，且所述第二交并比值大于或等于阈值和/或所述第三交并比值大于或等于阈值，则确定所述图像采集设备与所述手部、所述侧脸和/或所述耳部存在位置关联，并确定位置关联检测结果为所述图像采集设备处于听语音状态；若所述第一交并比值小于阈值，则确定所述图像采集设备与所述手部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于单独状态。 7.根据权利要求1 ‑6中任一项所述的拍摄行为检测方法，其特征在于，所述若所述位置权　利　要　求　书 2/3 页 3 CN 114743264 A 3

专利 拍摄行为检测方法、装置、设备及存储介质

专利拍摄行为检测方法、装置、设备及存储介质