(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211314627.5
(22)申请日 2022.10.26
(71)申请人 广州声博士声学技 术有限公司
地址 511400 广东省广州市番禺区石楼镇
华山路12号
(72)发明人 郑建辉
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江嘉玲
(51)Int.Cl.
G10L 17/02(2013.01)
G10L 17/04(2013.01)
G10L 17/18(2013.01)
G10L 17/26(2013.01)
G06F 16/65(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种实时噪声大数据的声纹识别方法、 系
统、 设备和介质
(57)摘要
本发明提供了一种实时噪声大数据的声纹
识别方法、 系统、 设备及介质, 所述方法包括: 获
取环境噪声数据, 并生成环境噪声数据的对数γ
频谱图; 将对数γ频谱图进行预处理, 得到对应
的三维对数γ频谱图; 将三维对 数γ频谱图输入
至预先构建的包括依次连接的双重域特征提取
模块、 有效特征融合模块、 下采样模块、 全 连接层
和softmax分类器的高区分度双重域学习网络模
型进行分类预测, 得到对应的声纹识别结果。 本
发明通过使用门控循环单元网络和反事实因果
注意力学习层并行提取时间结构特征和频率特
征, 并采用相似性矩阵与注意力机制结合的方式
进行特征融合, 有效提高了环 境噪音分类模型的
鲁棒性、 运行效率以及分类精准 性。
权利要求书3页 说明书13页 附图5页
CN 115376518 A
2022.11.22
CN 115376518 A
1.一种实时噪声大 数据的声纹识别方法, 其特 征在于, 所述方法包括以下步骤:
获取环境噪声数据, 并生成所述环境噪声数据的对数γ频谱图;
将所述对数γ频谱图进行 预处理, 得到对应的三维对数γ频谱图;
将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类
预测, 得到对应的声纹识别结果; 所述高区分度双重域学习网络模型包括依 次连接的双重
域特征提取模块、 有效特 征融合模块、 下采样模块、 全连接层和softmax分类 器。
2.如权利要求1所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述生成所述环
境噪声数据的对数γ频谱图的步骤 包括:
将所述环境噪声数据进行短时傅 立叶变换处 理, 得到对应的能量谱图;
计算所述能量谱图的Delta信息, 并采用γ型滤波器对所述能量谱图进行滤波处理, 得
到γ频谱图;
将所述Delta信息和所述γ频谱图串联, 得到所述对数γ频谱图。
3.如权利要求1所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述将所述对数
γ频谱图进行 预处理, 得到对应的三维对数γ频谱图的步骤 包括:
将所述对数γ频谱图按照预设时间 间隔进行分割, 得到若干个对数γ频谱分割图;
将所述对数γ频谱分割图的分割时序作为第 三维次数, 并按照第 三维次数由小到大的
顺序对所述对数γ频谱分割图进行正序排列, 得到所述 三维对数γ频谱图。
4.如权利要求3所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述双重域特征
提取模块包括并联的高区分度时间结构特 征模块和高区分度频率特 征模块;
所述高区分度时间结构特 征模块为门控循环单 元网络;
所述高区分度 频率特征模块包括依次连接的输入层、 反事实因果注意力学习层和输出
层。
5.如权利要求4所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述反事实因果
注意力学习层的损失函数表示 为:
式中,
权 利 要 求 书 1/3 页
2
CN 115376518 A
2其中,
表示反事实因果注意力学习层的损失值;
表示分类标签;
和
均
表示交叉熵损失函数;
表示
的第i个分量; A表示反事实因果注意力学习层
得到的注意力图;
表示反事实因果注意力学习层基于反事实干预得到的注意力图;
表示softmax分类器基于注意力图A的输出结果
的第i个分量;
表示softmax分类器基于注意力图
的输出结果;
表示因果推理干预;
表示三维对数γ频谱图; X表示频率特征图; Y (A=
A, X=X)表示使用A原值的注意力计算结果; Y (do(A=
), X=X)表示反事实选择时, 用
代替
A后的注意力计算结果。
6.如权利要求1所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述将所述三维
对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进 行分类预测, 得到对应的
声纹识别结果的步骤 包括:
将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取, 得到对应的时
间结构特 征图和频率特 征图;
将所述时间结构特征图和所述频率特征图输入所述有 效特征融合模块进行特征融合,
得到时频融合特 征;
将所述时频融合特征依次输入所述下采样模块、 全连接层和softmax分类器进行处理,
得到所述声纹识别结果。
7.如权利要求6所述的实时噪声大数据的声纹识别方法, 其特征在于, 所述将所述 时间
结构特征图和所述频率特征图输入所述有效特征融合模块进 行特征融合, 得到时频融合特
征的步骤 包括:
根据所述时间结构特 征图和所述频率特 征图, 得到特 征相似矩阵;
将所述特征相似矩阵分别输入第 一卷积层和第 二卷积层进行卷积处理, 得到对应的时
间权重矩阵和频率权 重矩阵;
根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征
图进行融合, 得到所述时频融合特 征。
8.一种实时噪声大 数据的声纹识别系统, 其特 征在于, 所述系统包括:
数据获取模块, 用于取环境噪声数据, 并生成所述环境噪声数据的对数γ频谱图;
预处理模块, 用于将所述对数γ频谱图进行 预处理, 得到对应的三维对数γ频谱图;
声纹识别模块, 用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习
网络模型进行分类预测, 得到对应的声纹识别结果; 所述高区分度双重域学习网络模型包
括依次连接的双重域特征提取模块、 有效特征融合模块、 下采样模块、 全连接层和softmax
分类器。
9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一所述权 利 要 求 书 2/3 页
3
CN 115376518 A
3
专利 一种实时噪声大数据的声纹识别方法、系统、设备和介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:11上传分享