专利一种基于麦克风阵列的定向音频拾取方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211298747.0 (22)申请日 2022.10.24 (71)申请人北京快鱼电子股份公司地址 100093 北京市海淀区闵庄路3号清华科技园玉泉慧谷 3栋 (72)发明人张瑜　魏庆凯　陈高鋆　李永梁　陶文场　 (74)专利代理机构北京天盾知识产权代理有限公司 11421 专利代理师姜有保 (51)Int.Cl. G10L 21/0216(2013.01) H04R 1/40(2006.01) G10L 25/18(2013.01) G10L 25/21(2013.01)G10L 25/30(2013.01) G06N 3/04(2006.01) (54)发明名称一种基于麦克风阵列的定向音频拾取方法和系统 (57)摘要本发明涉及指向性音频分离技术领域，提供了一种基于麦克风阵列的定向音频拾取方法和系统。该方法包括：采用由麦克风阵列组成的拾音器采集空间音频信号，降噪，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗和声强指数衰减法获得N个波束的指向性音频频谱的掩蔽值 mask；采用频谱分段统计和神经网络分类方法，获得修正后的掩蔽值mask；通过快速傅里叶逆变换变换到时域，得到N个波束的指向性音频的最终波形。本发明提高指向性拾音的语音质量，提升听感的同时提高文字转录准确率，所需硬件条件简单，成本低廉。权利要求书2页说明书10页附图4页 CN 115359804 A 2022.11.18 CN 115359804 A 1.一种基于麦克风阵列的定向音频拾取方法，其特征在于，包括： S1.采用由麦克风阵列组成的拾音器采集空间音频信号，对所述空间音频信号进行降噪； S2.基于降噪后的所述空间音频信号，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗获得所述N个波束的指向性音频频谱，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，获得各频点音频的来源方向，并通过声强指数衰减法获得所述N个波束的指向性音频频谱的掩蔽值mask； S3.采用频谱分段统计和神经网络分类方法，对所述N个波束的指向性音频频谱中各频点的掩蔽值mask进行修正，获得修正后的掩蔽值mask； S4.基于所述修正后的掩蔽值mask，通过快速傅里叶逆变换，得到所述N个波束的指向性音频信号的最终波形。 2.根据权利要求1所述的定向音频拾取方法，其特征在于，所述拾音器包括空间均匀分布的四麦阵列拾音器，所述四麦阵列拾音器包括：四个心形或宽心形单指向性麦克风，所述四个心形或宽心形单指向性麦克风围绕中心点均匀布置在安装座平面上，用于采集四路心形指向性音频信号。 3.根据权利要求1所述的定向音频拾取方法，其特征在于，所述S1包括： S11.采用所述拾音器采集空间音频数字信号，在所述空间音频数字信号中，选择帧长为10ms~20ms的设定数量的采样点； S12.将采集的多路空间音频数字信号的帧长分别存储，形成多个帧长片段，并通过计算所述多路空间音频数字信号的算术平均序列，计算得到全指向性的音频信号； S13.采用改进的最小值控制递归平均噪声估计法依次对所述多路空间音频数字信号进行单声道音频降噪处理。 4.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S2包括： S21.对目标声场空间周向360 °进行N等分，按照所述音频信号投影方法对降噪后的所述空间音频信号进行投影叠加处理，得到N个波束的指向性音频信号，其中， N表示大于1的自然数； S22.对所述N个波束的指向性音频进行帧移，将当前帧和前一帧拼接，形成窗长为W=2* F长度的窗口，对所述窗口加等长的窗，并对加窗后的N个波束的指向性音频信号进行快速傅里叶变换，计算出所述N个波束的指向性音频频谱，共计N W个频点，其中， F表示帧长； S23.基于所述NW个频点，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，逐个频点找出N个波束的指向性音频功率频谱幅值中的最大值，并设定该最大值所在波束的指向为对应频点的音频的来源方向； S24.通过声强指数衰减法，分别计算所述N个波束的指向性音频频谱的掩蔽值mask，并设置所述N个波束的指向性音频功率谱幅值中的最大值对应的波束在目标方位处的掩蔽值 mask=1.0； S25.利用所述N个波束的指向性音频功率谱幅值中的最大值乘以衰减权重，获得除所述目标方位处的掩蔽值mask=1.0之外的、其他N ‑1个波束的指向性音频频谱中各频点的掩蔽值mask。 5.根据权利要求4所述的定向音频拾取方法，其特征在于，还包括：在所述步骤S25之权　利　要　求　书 1/2 页 2 CN 115359804 A 2后，进行帧与帧之间的时间平滑。 6.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S3包括以下子步骤： S31.根据所述N个波束的指向性音频信号的频段特性，将所述N个波束的指向性音频频谱分为设定数量的频段； S32.基于所述设定数量的频段，设置高频mask平均值的阈值为0； S33.分段统计各个频段的mask 值，求得各频段的mask平均值； S34.设置各频段mask平均值的上限阈值和下限阈值； S35.获取介于各频段mask平均值的上限阈值和下限阈值之间的mask平均值，并将这些 mask平均值作为权重和对应所述N个波束的指向性音频频谱中的各频点的实部、虚部分别点对点相乘，获得所述N个波束的指向性音频频谱中各频点的掩蔽值mask。 7.根据权利要求6所述的定向音频拾取方法，其特征在于，所述步骤S3还包括： S36.对目标方位处的指向性音频信号进行声学特征提取，得到42个音频特征值，将所述42个音频特征值输入初始的神经网络模型，用输出的带标签的特征向量训练，得到目标神经网络模型； S37.将获得的所述目标方位处的指向性音频信号输入所述目标神经网络模型，计算出分类权重值，用所述分类权重值和所述N个波束的指向性音频频谱中各频点的掩蔽值mask 点乘，得到目标频点掩蔽值mask谱图，获得修正后的掩蔽值mask。 8.根据权利要求7所述的定向音频拾取方法，其特征在于，所述S36还包括：调整播放干扰声的扬声器的播报音量和目标方位处的指向性音频的播报音量，控制信噪比。 9.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S4包括： S41.对步骤S2中分帧加窗后的N个波束中指向目标方向的通道音频信号进行快速傅里叶变换，将所述修正后的掩蔽值mask和所述快速傅里叶变换后得到的值的实部、虚部分别点乘，再通过快速傅里叶逆变换变换到时域波形； S42.将所述时域波形分帧加窗后和前一帧重叠相加，得到目标方位处的指向性音频的最终波形。 10.一种基于麦克风阵列的定向音频拾取系统，其特征在于，包括：采集模块，用于采用由麦克风阵列组成的拾音器采集空间音频信号，对所述空间音频信号进行降噪；计算模块，用于基于降噪后的所述空间音频信号，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗获得所述N个波束的指向性音频频谱，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，获得各频点音频的来源方向，并通过声强指数衰减法获得所述N个波束的指向性音频频谱的掩蔽值mask；修正模块，用于采用频谱分段统计和神经网络分类方法，对所述N个波束的指向性音频频谱中各频点的掩蔽值mask进行修正，获得修正后的掩蔽值mask；变换模块，用于基于所述修正后的掩蔽值mask，通过快速傅里叶逆变换，得到所述N个波束的指向性音频信号的最终波形。权　利　要　求　书 2/2 页 3 CN 115359804 A 3

专利 一种基于麦克风阵列的定向音频拾取方法和系统

专利一种基于麦克风阵列的定向音频拾取方法和系统