全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210604454.4 (22)申请日 2022.05.30 (71)申请人 未鲲 (上海) 科技 服务有限公司 地址 200120 上海市浦东 新区自由贸易试 验区陆家嘴环路13 33号15楼 (72)发明人 张建军  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/40(2022.01) G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01)G10L 17/00(2013.01) H04L 9/40(2022.01) (54)发明名称 声纹图像结合的人脸识别方法、 装置、 设备 及存储介质 (57)摘要 本发明涉及生物识别技术, 揭露了一种声纹 图像结合的人脸识别方法, 包括: 获取监控视频, 并根据预设的人脸识别方法, 对 所述监控视频进 行人脸活体识别, 得到人脸识别结果; 当所述人 脸识别结果通过认证时, 获取所述监控视频中的 音频信息, 并利用预训练的声纹识别网络对所述 音频信息进行声纹认证, 得到声纹识别结果; 当 所述声纹识别结果通过认证时, 根据所述人脸识 别结果, 从预构建的人脸数据库中筛选人物, 得 到所述监控视频中人物的身份信息。 本发明还提 出一种声纹图像结合的人脸识别装置、 电子设备 以及存储介质。 本发明可以降低人脸识别被网络 攻击的风险度。 权利要求书2页 说明书10页 附图5页 CN 114882569 A 2022.08.09 CN 114882569 A 1.一种声纹图像结合的人脸识别方法, 其特 征在于, 所述方法包括: 获取监控视频, 并将所述监控视频导入预训练的图像音频双通道人脸识别模型中进行 视频数据划分, 得到音 频信息及视频图像信息, 并对所述视频图像信息进 行人脸活体识别, 得到活体识别结果及人脸特 征结果; 当所述活体识别结果通过认证时, 利用所述图像音频双通道人脸识别模型中的声纹识 别网络对所述音频信息进行声纹识别, 得到声纹识别结果; 当所述声纹识别结果通过认证时, 根据所述人脸特征结果, 从预构建的人脸数据库中 筛选人物, 得到所述 监控视频中人物的身份信息 。 2.如权利要求1所述的声纹图像结合的人脸识别方法, 其特征在于, 所述利用所述图像 音频双通道人脸识别模型中的声纹识别网络对 所述音频信息进行声纹识别, 得到声纹识别 结果, 包括: 对所述音频信息进行声纹特 征识别, 得到声纹特 征集合; 利用所述声纹识别网络 中的拼接音频识别 激活函数识别所述声纹特征集合, 判断所述 音频信息是否为 拼接音频; 当所述音频信息为 拼接音频时, 生成拼接音频攻击警报; 当所述音频信息不是拼接音频时, 获取所述人脸识别结果对应的预存声纹信息, 并识 别所述声纹特 征集合与所述预存声纹信息的相似度; 根据所述相似度及预设的可信阈值, 得到所述音频信息的声纹识别结果。 3.如权利要求1所述的声纹图像结合的人脸识别方法, 其特征在于, 所述对所述视频图 像信息进行 人脸活体识别, 得到活体识别结果及人脸特 征结果, 包括: 对所述监控视频进行 灰度化处 理, 得到灰度视频; 根据预设的随机活体识别方法, 从所述灰度视频中截取活体认证视频; 利用所述图像音频双通道人脸识别模型中的活体识别网络对所述活体认证视频进行 动作特征识别, 得到认证动作集 合; 当所述认证动作集合不符合所述随机活体识别方法时, 判定所述监控视频中存在活体 攻击现象, 并发出 预设的活体攻击警报; 当所述认证动作集合符合所述随机活体识别方法时, 判定所述监控视频中的人物为活 体, 并利用所述图像音频双通道人脸识别模型中的人脸特征提取网络对所述灰度视频进 行 特征识别, 得到人脸特 征结果。 4.如权利要求3所述的声纹图像结合的人脸识别方法, 其特征在于, 所述根据 预设的随 机活体识别方法, 从所述灰度视频中截取活体认证视频, 包括: 从预构建的活体识别方法集 合中随机提取一种识别方法; 根据所述识别方法, 生成人脸截取框, 将所述人脸截取框 中的人脸视频进行截取, 得到 活体认证视频。 5.如权利要求3所述的声纹图像结合的人脸识别方法, 其特征在于, 所述利用所述图像 音频双通道人脸识别模型中的活体识别网络对 所述活体认证视频进行动作特征识别, 得到 认证动作集 合, 包括: 利用所述活体识别网络对所述活体认证视频进行 特征提取操作, 得到特 征序列集 合; 对所述特 征序列集 合进行特征识别操作, 得到特 征集合;权 利 要 求 书 1/2 页 2 CN 114882569 A 2对所述特 征集合进行分类判断, 得到认证动作集 合。 6.如权利要求1所述的声纹图像结合的人脸识别方法, 其特征在于, 所述将所述监控视 频导入预训练的图像音频双通道人脸识别模型中进行视频数据划分之前, 所述方法还包 括: 获取包含声纹匹配激活函数及音频拼接判断激活函数的声纹识别网络; 获取预构建的训练样本集, 并依次从所述训练样本集中提取一个训练样本导入所述声 纹识别网络中, 得到识别结果; 根据交叉熵算法计算所述识别结果与所述训练样本对应的真实结果之间的损失值; 最小化所述损 失值, 得到损 失值最小时的函数参数, 并利用所述函数参数反向更新所 述声纹识别网络, 得到更新声纹识别网络; 判断所述损失值的收敛性; 当所述损失值未收敛时, 返回上述依次从所述训练样本集中提取一个训练样本导入所 述声纹识别网络中, 得到识别结果的步骤, 对所述更新声纹识别网络进行迭代更新; 当所述损 失值收敛时, 将最终更新的更新声纹识别网络进行输出, 得到训练完成的声 纹识别网络 。 7.如权利要求1所述的声纹图像结合的人脸识别方法, 其特征在于, 所述对所述视频图 像信息进行 人脸活体识别, 得到活体识别结果及人脸特 征结果之前, 所述方法还 包括: 对所述监控视频进行嘴型识别, 得到嘴部特 征序列; 利用所述嘴部特 征序列与所述音频信息进行音唇匹配; 当音唇匹配时, 执行所述利用预训练的声纹识别网络对所述音频信息进行声纹认证, 得到声纹识别结果的步骤; 当音唇不匹配时, 发出 预设的音唇不匹配警报。 8.一种声纹图像结合的人脸识别装置, 其特 征在于, 所述装置包括: 人脸认证模块, 用于获取监控视频, 并将所述监控视频导入预训练的图像音频双通道 人脸识别模型中进行视频数据划分, 得到音频信息及视频图像信息, 并对所述视频图像信 息进行人脸活体识别, 得到活体识别结果及人脸特 征结果; 声纹识别模块, 用于当所述活体识别结果通过认证时, 利用所述图像音频双通道人脸 识别模型中的声纹识别网络对所述音频信息进行声纹识别, 得到声纹识别结果; 身份信息获取模块, 用于当所述声纹识别结果通过认证时, 根据 所述人脸特征结果, 从 预构建的人脸数据库中筛 选人物, 得到所述 监控视频中人物的身份信息 。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所 述的声纹图像结合的人脸识别方法。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任意 一项所述的声纹图像结合的人脸识别方法。权 利 要 求 书 2/2 页 3 CN 114882569 A 3

.PDF文档 专利 声纹图像结合的人脸识别方法、装置、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 声纹图像结合的人脸识别方法、装置、设备及存储介质 第 1 页 专利 声纹图像结合的人脸识别方法、装置、设备及存储介质 第 2 页 专利 声纹图像结合的人脸识别方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:02:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。