全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211298747.0 (22)申请日 2022.10.24 (71)申请人 北京快鱼电子股份公司 地址 100093 北京市海淀区闵庄路3号清华 科技园玉泉慧谷 3栋 (72)发明人 张瑜 魏庆凯 陈高鋆 李永梁  陶文场  (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 姜有保 (51)Int.Cl. G10L 21/0216(2013.01) H04R 1/40(2006.01) G10L 25/18(2013.01) G10L 25/21(2013.01)G10L 25/30(2013.01) G06N 3/04(2006.01) (54)发明名称 一种基于麦克风阵列的定向音频拾取方法 和系统 (57)摘要 本发明涉及指向性音 频分离技术领域, 提供 了一种基于麦克风阵列的定向音频拾取方法和 系统。 该方法包括: 采用由麦克风阵列组成的拾 音器采集空间音频信号, 降噪, 按照音频信号投 影方法获得N个波束的指向性音频信号, 通过分 帧加窗和声强指数衰减法获得N个波束的指向性 音频频谱的掩蔽值 mask; 采用频谱分段统计和神 经网络分类方法, 获得修正后的掩蔽值mask; 通 过快速傅里叶逆变换变换到时域, 得到N个波束 的指向性音频的最终波形。 本发 明提高指向性拾 音的语音质量, 提升听感的同时提高文字转录准 确率, 所需硬件条件简单, 成本低廉。 权利要求书2页 说明书10页 附图4页 CN 115359804 A 2022.11.18 CN 115359804 A 1.一种基于 麦克风阵列的定向音频拾取 方法, 其特 征在于, 包括: S1.采用由麦克风阵列组成的拾音器采集空间音频信号, 对所述空间音频信号进行降 噪; S2.基于降噪后的所述空间音频信号, 按照音频信号投影方法获得N个波束的指向性音 频信号, 通过分帧加窗获得所述N个波束的指向性音频频谱, 依 次计算所述N个波束的指向 性音频频谱中对应各频点的功率谱 幅值, 获得各频点音频 的来源方向, 并通过声强指数衰 减法获得 所述N个波束的指向性音频 频谱的掩蔽值mask; S3.采用频谱分段统计和神经网络分类方法, 对所述N个波束的指向性音频频谱中各频 点的掩蔽值mask进行修 正, 获得修 正后的掩蔽值mask; S4.基于所述修正后的掩蔽值mask, 通过快速傅里叶逆变换, 得到所述N个波束的指向 性音频信号的最终波形。 2.根据权利要求1所述的定向音频拾取方法, 其特征在于, 所述拾音器包括空间均匀分 布的四麦阵列拾音器, 所述四麦阵列拾音器包括: 四个心形或宽心形单指向性麦克风, 所述 四个心形或宽心形单指向性麦克风围绕中心 点均匀布置在安装座平面上, 用于采集四路心 形指向性音频信号。 3.根据权利要求1所述的定向音频拾取 方法, 其特 征在于, 所述S1包括: S11.采用所述拾音器采集空间音频数字信号, 在所述空间音频数字信号中, 选择帧长 为10ms~20ms的设定数量的采样点; S12.将采集的多路空间音频数字信号的帧长分别存储, 形成多个帧长片段, 并通过计 算所述多路空间音频 数字信号的算 术平均序列, 计算得到全指向性的音频信号; S13.采用改进的最小值控制递归平均噪声估计法依次对所述多路空间音频数字信号 进行单声道音频降噪处 理。 4.根据权利要求1所述的定向音频拾取 方法, 其特 征在于, 所述 步骤S2包括: S21.对目标声场空间周向360 °进行N等分, 按照所述音频信号投影方法对降噪后的所 述空间音频信号进行投影叠加处理, 得到N个波束的指向性音频信号, 其中, N表示大于1的 自然数; S22.对所述N个波束的指向性音频进行帧移, 将 当前帧和前一帧拼接, 形成窗长为W=2* F长度的窗口, 对所述窗口加等长的窗, 并对加窗后的N个波束的指向性音频信号进行快速 傅里叶变换, 计算出 所述N个波束的指向性音频 频谱, 共计N W个频点, 其中, F表示帧长; S23.基于所述NW个频点, 依次计算所述N个波束 的指向性音频频谱中对应各频点的功 率谱幅值, 逐个频点找出N个波束的指向性音频功 率频谱幅值中的最大值, 并设定该最大值 所在波束的指向为对应频点的音频的来源方向; S24.通过声强指数衰减法, 分别计算所述N个波束的指向性音频频谱的掩蔽值mask, 并 设置所述N个波束的指向性音频功 率谱幅值中的最大值对应的波束在目标方位处的掩蔽值 mask=1.0; S25.利用所述N个波束的指向性音频功率谱幅值中的最大值乘以衰减权重, 获得除所 述目标方位处的掩蔽值mask=1.0之外的、 其他N ‑1个波束的指向性音频频谱中各频点的掩 蔽值mask。 5.根据权利要求4所述的定向音频拾取方法, 其特征在于, 还包括: 在所述步骤S25之权 利 要 求 书 1/2 页 2 CN 115359804 A 2后, 进行帧与帧之间的时间平 滑。 6.根据权利要求1所述的定向音频拾取方法, 其特征在于, 所述步骤S3包括以下子步 骤: S31.根据所述N个波束的指向性音频信号的频段特性, 将所述N个波束的指向性音频频 谱分为设定数量的频 段; S32.基于所述设定数量的频 段, 设置高频mask平均值的阈值 为0; S33.分段统计各个频 段的mask 值, 求得各频段的mask平均值; S34.设置各 频段mask平均值的上限阈值和下限阈值; S35.获取介于各频段mask平均值的上限阈值和下限阈值之间的mask平均值, 并将这些 mask平均值作为权重和对应所述N个波束的指向性音频频谱中的各频点的实部、 虚部分别 点对点相乘, 获得 所述N个波束的指向性音频 频谱中各 频点的掩蔽值mask。 7.根据权利要求6所述的定向音频拾取 方法, 其特 征在于, 所述 步骤S3还 包括: S36.对目标方位处的指 向性音频信号进行声学特征提取, 得到42个音频特征值, 将所 述42个音频特征值输入初始的神经网络模型, 用输出的带标签的特征向量训练, 得到目标 神经网络模型; S37.将获得的所述目标方位处 的指向性音频信号输入所述目标神经网络模型, 计算出 分类权重值, 用所述分类权重值和所述N个波束的指向性音频频谱中各频点的掩蔽值mask 点乘, 得到目标 频点掩蔽值mask谱图, 获得修 正后的掩蔽值mask。 8.根据权利要求7所述的定向音频拾取方法, 其特征在于, 所述S36还包括: 调整播放干 扰声的扬声器的播报音量和目标 方位处的指向性音频的播报音量, 控制信噪比。 9.根据权利要求1所述的定向音频拾取 方法, 其特 征在于, 所述 步骤S4包括: S41.对步骤S2中分帧加窗后的N个波束中指向目标方向的通道音频信号进行快速傅里 叶变换, 将所述修正后的掩蔽值mask和所述快速傅里叶变换后得到的值的实部、 虚部分别 点乘, 再通过 快速傅里叶逆变换变换到时域波形; S42.将所述时域波形分帧加窗后和前一帧重叠相加, 得到目标方位处 的指向性音频的 最终波形。 10.一种基于 麦克风阵列的定向音频拾取系统, 其特 征在于, 包括: 采集模块, 用于采用由麦克风阵列组成的拾音器采集空间音频信号, 对所述空间音频 信号进行降噪; 计算模块, 用于基于降噪后的所述空间音频信号, 按照音频信号投影方法获得N个波束 的指向性音频信号, 通过分帧加窗获得所述N个波束的指向性音频频谱, 依 次计算所述N个 波束的指向性音频频谱中对应各频点的功率谱 幅值, 获得各频点音频 的来源方向, 并通过 声强指数衰减法获得 所述N个波束的指向性音频 频谱的掩蔽值mask; 修正模块, 用于采用频谱分段统计和神经网络分类方法, 对所述N个波束的指向性音频 频谱中各 频点的掩蔽值mask进行修 正, 获得修 正后的掩蔽值mask; 变换模块, 用于基于所述修正后的掩蔽值mask, 通过快速傅里叶逆变换, 得到所述N个 波束的指向性音频信号的最终波形。权 利 要 求 书 2/2 页 3 CN 115359804 A 3

PDF文档 专利 一种基于麦克风阵列的定向音频拾取方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于麦克风阵列的定向音频拾取方法和系统 第 1 页 专利 一种基于麦克风阵列的定向音频拾取方法和系统 第 2 页 专利 一种基于麦克风阵列的定向音频拾取方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。