专利 一种实时噪声大数据的声纹识别方法、系统、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211314627.5 (22)申请日 2022.10.26 (71)申请人广州声博士声学技术有限公司地址 511400 广东省广州市番禺区石楼镇华山路12号 (72)发明人郑建辉　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师江嘉玲 (51)Int.Cl. G10L 17/02(2013.01) G10L 17/04(2013.01) G10L 17/18(2013.01) G10L 17/26(2013.01) G06F 16/65(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种实时噪声大数据的声纹识别方法、系统、设备和介质 (57)摘要本发明提供了一种实时噪声大数据的声纹识别方法、系统、设备及介质，所述方法包括：获取环境噪声数据，并生成环境噪声数据的对数γ 频谱图；将对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；将三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果。本发明通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征，并采用相似性矩阵与注意力机制结合的方式进行特征融合，有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。权利要求书3页说明书13页附图5页 CN 115376518 A 2022.11.22 CN 115376518 A 1.一种实时噪声大数据的声纹识别方法，其特征在于，所述方法包括以下步骤：获取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。 2.如权利要求1所述的实时噪声大数据的声纹识别方法，其特征在于，所述生成所述环境噪声数据的对数γ频谱图的步骤包括：将所述环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；将所述Delta信息和所述γ频谱图串联，得到所述对数γ频谱图。 3.如权利要求1所述的实时噪声大数据的声纹识别方法，其特征在于，所述将所述对数 γ频谱图进行预处理，得到对应的三维对数γ频谱图的步骤包括：将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述三维对数γ频谱图。 4.如权利要求3所述的实时噪声大数据的声纹识别方法，其特征在于，所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块；所述高区分度时间结构特征模块为门控循环单元网络；所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。 5.如权利要求4所述的实时噪声大数据的声纹识别方法，其特征在于，所述反事实因果注意力学习层的损失函数表示为：式中，权　利　要　求　书 1/3 页 2 CN 115376518 A 2其中，表示反事实因果注意力学习层的损失值；表示分类标签；和均表示交叉熵损失函数；表示的第i个分量； A表示反事实因果注意力学习层得到的注意力图；表示反事实因果注意力学习层基于反事实干预得到的注意力图；表示softmax分类器基于注意力图A的输出结果的第i个分量；表示softmax分类器基于注意力图的输出结果；表示因果推理干预；表示三维对数γ频谱图； X表示频率特征图； Y (A= A, X=X)表示使用A原值的注意力计算结果； Y (do(A= )， X=X)表示反事实选择时，用代替 A后的注意力计算结果。 6.如权利要求1所述的实时噪声大数据的声纹识别方法，其特征在于，所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取，得到对应的时间结构特征图和频率特征图；将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合，得到时频融合特征；将所述时频融合特征依次输入所述下采样模块、全连接层和softmax分类器进行处理，得到所述声纹识别结果。 7.如权利要求6所述的实时噪声大数据的声纹识别方法，其特征在于，所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合，得到时频融合特征的步骤包括：根据所述时间结构特征图和所述频率特征图，得到特征相似矩阵；将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理，得到对应的时间权重矩阵和频率权重矩阵；根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合，得到所述时频融合特征。 8.一种实时噪声大数据的声纹识别系统，其特征在于，所述系统包括：数据获取模块，用于取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；预处理模块，用于将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；声纹识别模块，用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax 分类器。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述权　利　要　求　书 2/3 页 3 CN 115376518 A 3

专利 一种实时噪声大数据的声纹识别方法、系统、设备和介质

专利一种实时噪声大数据的声纹识别方法、系统、设备和介质