全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111660100.3 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 严哲 殷保才 李渊强  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G10L 21/0272(2013.01) G10L 21/0308(2013.01) G06K 9/62(2022.01) G06N 3/02(2006.01) (54)发明名称 说话者分离模型的训练方法和说话者分离 方法及相关装置 (57)摘要 本申请公开了一种说话者分离模型的训练 方法和说话者分离方法及相关装置, 其中, 说话 者分离模型的训练方法包括: 获取样本环境的样 本数据, 且样本数据包括同一时间段采集的样本 语音数据和样本环境中若干说话者的样本图像 序列; 利用说话者分离模型, 对样本数据进行处 理得到各说话者的语音分离掩码, 并对语音分离 掩码和样 本数据进行处理得到说话者分离结果, 其中, 说话者分离结果用于确定样 本语音数据中 的不同时间片段的说话者; 利用语音分离掩码和 说话者分离结果, 调整说话者分离模 型的网络参 数。 上述方案, 能够提高说话 者分离效果。 权利要求书3页 说明书11页 附图4页 CN 114360573 A 2022.04.15 CN 114360573 A 1.一种说话 者分离模型的训练方法, 其特 征在于, 包括: 获取样本环境的样本数据, 其中, 所述样本数据包括同一时间段采集的样本语音数据 和所述样本环境中若干说话 者的样本图像序列; 利用说话者分离模型, 对所述样本数据进行处理得到各所述说话者的语音分离掩码, 并对所述语音分离掩码和所述样本数据进行处理得到说话者分离结果, 其中, 所述说话者 分离结果用于确定所述样本语音数据中的不同时间片段的说话 者; 利用所述语音分离掩码和所述说话者分离结果, 调整所述说话者分离模型的网络参 数。 2.根据权利要求1所述的方法, 其特征在于, 所述利用所述语音分离掩码和所述说话者 分离结果, 调整所述说话 者分离模型的网络参数, 包括: 利用所述语音分离掩码, 得到第一损失, 以及利用所述说话者分离结果, 得到第二损 失; 基于所述第一损失和第二损失, 调整所述说话 者分离模型的网络参数。 3.根据权利要求2所述的方法, 其特征在于, 所述第一损失是L2损失, 所述第二损失为 交叉熵损失; 和/或, 所述基于所述第一损失和第二损失, 调整所述说话者分离模型的网络参数, 包 括: 对所述第一损失和第二损失进行加权求和, 得到第三损失; 基于所述第三损失, 调整所述说话 者分离模型的网络参数。 4.根据权利要求1所述的方法, 其特征在于, 所述说话者分离模型的语音分离模块和说 话者分离模块; 所述利用说话者分离模型, 对所述样本数据进行处理得到各所述说话者的语音分离掩 码, 并对所述语音分离掩码和所述样本数据进行处 理得到说话 者分离结果, 包括: 利用所述说话者分离模型对所述样本数据进行特征提取, 得到样本特征, 其中, 所述样 本特征包括所述样本语音数据的样本语音特 征和所述样本图像序列的样本图像特 征; 利用所述语音分离模块对所述样本特征进行处理, 得到各所述说话者的语音分离掩 码, 其中, 所述说话 者的语音分离掩码用于过 滤不属于所述说话 者的语音特 征; 利用所述说话者分离模块对所述语音分离掩码和所述样本特征进行处理, 得到所述说 话者分离结果。 5.根据权利要求1所述的方法, 其特征在于, 所述样本图像序列中的样本图像为所述说 话者的唇部图像; 和/或, 所述说话者分离结果包括各所述说话者在所述样本语音数据对应的各时间片 段的说话置信度。 6.一种说话 者分离方法, 其特 征在于, 包括: 获取目标环境的目标数据, 其中, 所述目标数据包括同一时间段采集的目标语音数据 和所述目标环境中若干说话 者的目标图像序列; 利用说话 者分离模型对所述目标 数据进行处 理, 得到各 所述说话 者的语音分离掩码; 利用所述说话者分离模型对所述语音分离掩码和所述目标数据进行处理, 得到说话者 分离结果, 其中, 所述说话者分离结果用于确定所述 目标语音数据中的不同时间片段的说权 利 要 求 书 1/3 页 2 CN 114360573 A 2话者。 7.根据权利要求6所述的方法, 其特征在于, 所述目标图像序列中的目标图像为所述说 话者的唇部图像; 和/或, 在所述获取目标环境的目标 数据之前, 所述方法还 包括: 利用权利要求1至 5任一项所述的方法, 训练所述说话 者分离模型。 8.根据权利要求6所述的方法, 其特征在于, 所述说话者分离模型的语音分离模块和说 话者分离模块; 所述利用说话者分离模型对所述目标数据进行处理, 得到各所述说话者的语音分离掩 码, 包括: 利用所述说话者分离模型对所述目标数据进行特征提取, 得到目标特征, 其中, 所述目 标特征包括所述目标语音数据的目标语音特 征和所述目标图像序列的目标图像特 征; 利用所述语音分离模块对所述目标特征进行处理, 得到各所述说话者的语音分离掩 码, 其中, 所述说话 者的语音分离掩码用于过 滤不属于所述说话 者的语音特 征; 所述利用所述说话者分离模型对所述语音分离掩码和所述目标数据进行处理, 得到说 话者分离结果, 包括: 利用所述说话者分离模块对所述语音分离掩码和所述目标特征进行处理, 得到所述说 话者分离结果。 9.根据权利要求8所述的方法, 其特征在于, 所述对所述目标数据进行特征提取, 得到 目标特征, 包括: 对所述目标语音数据进行短时傅里叶变换, 得到频域特征, 以作为目标语音特征, 以及 对各所述说话 者的目标图像序列进行 特征提取, 得到各 所述说话 者的目标图像特 征; 所述对所述目标 特征进行处 理, 得到各 所述说话 者的语音分离掩码, 包括: 融合所述目标语音特 征和所述目标图像特 征, 得到第一融合特 征; 基于所述第一融合特 征, 得到各 所述说话 者的语音分离掩码; 所述对所述语音分离掩码和所述目标 特征进行处 理, 得到所述说话 者分离结果, 包括: 融合所述语音分离掩码、 目标语音特征和目标图像特征, 得到第二融合特征, 其中, 所 述第二融合特 征包括若干第一 通道特征, 每个第一通道特征对应一个说话 者; 基于所述第二融合特 征, 得到所述说话 者分离结果。 10.根据权利要求9所述的方法, 其特征在于, 各所述说话的所述目标图像特征均包括 多个时间片段 的子图像特征, 所述 目标语音特征包括多个时间片段的子语音特征, 所述融 合所述目标语音特 征和所述目标图像特 征, 得到第一融合特 征, 包括: 对于每个所述说话者, 将各时间片段的子语音特征分别与所述说话者的对应时间片段 的子图像特征进行融合, 得到所述说话者的子融合特征, 其中, 所述若干 说话者的子融合特 征组成所述第一融合特 征; 各所述说话者的语音分离掩码均包括多个时间片段的子掩码, 所述融合所述语音分离 掩码、 目标语音特 征和目标图像特 征, 得到第二融合特 征, 包括: 对于每个所述说话者, 将不同时间片段的子语音特征分别与 所述说话者的对应时间片 段的子图像特 征和子掩码进行融合, 得到所述说话 者对应的第一 通道特征。 11.根据权利要求9所述的方法, 其特征在于, 所述基于所述第 二融合特征, 得到所述说权 利 要 求 书 2/3 页 3 CN 114360573 A 3

.PDF文档 专利 说话者分离模型的训练方法和说话者分离方法及相关装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 说话者分离模型的训练方法和说话者分离方法及相关装置 第 1 页 专利 说话者分离模型的训练方法和说话者分离方法及相关装置 第 2 页 专利 说话者分离模型的训练方法和说话者分离方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。