专利声纹图像结合的人脸识别方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210604454.4 (22)申请日 2022.05.30 (71)申请人未鲲（上海）科技服务有限公司地址 200120 上海市浦东新区自由贸易试验区陆家嘴环路13 33号15楼 (72)发明人张建军　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/40(2022.01) G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01)G10L 17/00(2013.01) H04L 9/40(2022.01) (54)发明名称声纹图像结合的人脸识别方法、装置、设备及存储介质 (57)摘要本发明涉及生物识别技术，揭露了一种声纹图像结合的人脸识别方法，包括：获取监控视频，并根据预设的人脸识别方法，对所述监控视频进行人脸活体识别，得到人脸识别结果；当所述人脸识别结果通过认证时，获取所述监控视频中的音频信息，并利用预训练的声纹识别网络对所述音频信息进行声纹认证，得到声纹识别结果；当所述声纹识别结果通过认证时，根据所述人脸识别结果，从预构建的人脸数据库中筛选人物，得到所述监控视频中人物的身份信息。本发明还提出一种声纹图像结合的人脸识别装置、电子设备以及存储介质。本发明可以降低人脸识别被网络攻击的风险度。权利要求书2页说明书10页附图5页 CN 114882569 A 2022.08.09 CN 114882569 A 1.一种声纹图像结合的人脸识别方法，其特征在于，所述方法包括：获取监控视频，并将所述监控视频导入预训练的图像音频双通道人脸识别模型中进行视频数据划分，得到音频信息及视频图像信息，并对所述视频图像信息进行人脸活体识别，得到活体识别结果及人脸特征结果；当所述活体识别结果通过认证时，利用所述图像音频双通道人脸识别模型中的声纹识别网络对所述音频信息进行声纹识别，得到声纹识别结果；当所述声纹识别结果通过认证时，根据所述人脸特征结果，从预构建的人脸数据库中筛选人物，得到所述监控视频中人物的身份信息。 2.如权利要求1所述的声纹图像结合的人脸识别方法，其特征在于，所述利用所述图像音频双通道人脸识别模型中的声纹识别网络对所述音频信息进行声纹识别，得到声纹识别结果，包括：对所述音频信息进行声纹特征识别，得到声纹特征集合；利用所述声纹识别网络中的拼接音频识别激活函数识别所述声纹特征集合，判断所述音频信息是否为拼接音频；当所述音频信息为拼接音频时，生成拼接音频攻击警报；当所述音频信息不是拼接音频时，获取所述人脸识别结果对应的预存声纹信息，并识别所述声纹特征集合与所述预存声纹信息的相似度；根据所述相似度及预设的可信阈值，得到所述音频信息的声纹识别结果。 3.如权利要求1所述的声纹图像结合的人脸识别方法，其特征在于，所述对所述视频图像信息进行人脸活体识别，得到活体识别结果及人脸特征结果，包括：对所述监控视频进行灰度化处理，得到灰度视频；根据预设的随机活体识别方法，从所述灰度视频中截取活体认证视频；利用所述图像音频双通道人脸识别模型中的活体识别网络对所述活体认证视频进行动作特征识别，得到认证动作集合；当所述认证动作集合不符合所述随机活体识别方法时，判定所述监控视频中存在活体攻击现象，并发出预设的活体攻击警报；当所述认证动作集合符合所述随机活体识别方法时，判定所述监控视频中的人物为活体，并利用所述图像音频双通道人脸识别模型中的人脸特征提取网络对所述灰度视频进行特征识别，得到人脸特征结果。 4.如权利要求3所述的声纹图像结合的人脸识别方法，其特征在于，所述根据预设的随机活体识别方法，从所述灰度视频中截取活体认证视频，包括：从预构建的活体识别方法集合中随机提取一种识别方法；根据所述识别方法，生成人脸截取框，将所述人脸截取框中的人脸视频进行截取，得到活体认证视频。 5.如权利要求3所述的声纹图像结合的人脸识别方法，其特征在于，所述利用所述图像音频双通道人脸识别模型中的活体识别网络对所述活体认证视频进行动作特征识别，得到认证动作集合，包括：利用所述活体识别网络对所述活体认证视频进行特征提取操作，得到特征序列集合；对所述特征序列集合进行特征识别操作，得到特征集合；权　利　要　求　书 1/2 页 2 CN 114882569 A 2对所述特征集合进行分类判断，得到认证动作集合。 6.如权利要求1所述的声纹图像结合的人脸识别方法，其特征在于，所述将所述监控视频导入预训练的图像音频双通道人脸识别模型中进行视频数据划分之前，所述方法还包括：获取包含声纹匹配激活函数及音频拼接判断激活函数的声纹识别网络；获取预构建的训练样本集，并依次从所述训练样本集中提取一个训练样本导入所述声纹识别网络中，得到识别结果；根据交叉熵算法计算所述识别结果与所述训练样本对应的真实结果之间的损失值；最小化所述损失值，得到损失值最小时的函数参数，并利用所述函数参数反向更新所述声纹识别网络，得到更新声纹识别网络；判断所述损失值的收敛性；当所述损失值未收敛时，返回上述依次从所述训练样本集中提取一个训练样本导入所述声纹识别网络中，得到识别结果的步骤，对所述更新声纹识别网络进行迭代更新；当所述损失值收敛时，将最终更新的更新声纹识别网络进行输出，得到训练完成的声纹识别网络。 7.如权利要求1所述的声纹图像结合的人脸识别方法，其特征在于，所述对所述视频图像信息进行人脸活体识别，得到活体识别结果及人脸特征结果之前，所述方法还包括：对所述监控视频进行嘴型识别，得到嘴部特征序列；利用所述嘴部特征序列与所述音频信息进行音唇匹配；当音唇匹配时，执行所述利用预训练的声纹识别网络对所述音频信息进行声纹认证，得到声纹识别结果的步骤；当音唇不匹配时，发出预设的音唇不匹配警报。 8.一种声纹图像结合的人脸识别装置，其特征在于，所述装置包括：人脸认证模块，用于获取监控视频，并将所述监控视频导入预训练的图像音频双通道人脸识别模型中进行视频数据划分，得到音频信息及视频图像信息，并对所述视频图像信息进行人脸活体识别，得到活体识别结果及人脸特征结果；声纹识别模块，用于当所述活体识别结果通过认证时，利用所述图像音频双通道人脸识别模型中的声纹识别网络对所述音频信息进行声纹识别，得到声纹识别结果；身份信息获取模块，用于当所述声纹识别结果通过认证时，根据所述人脸特征结果，从预构建的人脸数据库中筛选人物，得到所述监控视频中人物的身份信息。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求 1至7中任意一项所述的声纹图像结合的人脸识别方法。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的声纹图像结合的人脸识别方法。权　利　要　求　书 2/2 页 3 CN 114882569 A 3

专利 声纹图像结合的人脸识别方法、装置、设备及存储介质

专利声纹图像结合的人脸识别方法、装置、设备及存储介质