专利说话者分离模型的训练方法和说话者分离方法及相关装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111660100.3 (22)申请日 2021.12.31 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人严哲　殷保才　李渊强　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人刘希 (51)Int.Cl. G10L 21/0272(2013.01) G10L 21/0308(2013.01) G06K 9/62(2022.01) G06N 3/02(2006.01) (54)发明名称说话者分离模型的训练方法和说话者分离方法及相关装置 (57)摘要本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置，其中，说话者分离模型的训练方法包括：获取样本环境的样本数据，且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列；利用说话者分离模型，对样本数据进行处理得到各说话者的语音分离掩码，并对语音分离掩码和样本数据进行处理得到说话者分离结果，其中，说话者分离结果用于确定样本语音数据中的不同时间片段的说话者；利用语音分离掩码和说话者分离结果，调整说话者分离模型的网络参数。上述方案，能够提高说话者分离效果。权利要求书3页说明书11页附图4页 CN 114360573 A 2022.04.15 CN 114360573 A 1.一种说话者分离模型的训练方法，其特征在于，包括：获取样本环境的样本数据，其中，所述样本数据包括同一时间段采集的样本语音数据和所述样本环境中若干说话者的样本图像序列；利用说话者分离模型，对所述样本数据进行处理得到各所述说话者的语音分离掩码，并对所述语音分离掩码和所述样本数据进行处理得到说话者分离结果，其中，所述说话者分离结果用于确定所述样本语音数据中的不同时间片段的说话者；利用所述语音分离掩码和所述说话者分离结果，调整所述说话者分离模型的网络参数。 2.根据权利要求1所述的方法，其特征在于，所述利用所述语音分离掩码和所述说话者分离结果，调整所述说话者分离模型的网络参数，包括：利用所述语音分离掩码，得到第一损失，以及利用所述说话者分离结果，得到第二损失；基于所述第一损失和第二损失，调整所述说话者分离模型的网络参数。 3.根据权利要求2所述的方法，其特征在于，所述第一损失是L2损失，所述第二损失为交叉熵损失；和/或，所述基于所述第一损失和第二损失，调整所述说话者分离模型的网络参数，包括：对所述第一损失和第二损失进行加权求和，得到第三损失；基于所述第三损失，调整所述说话者分离模型的网络参数。 4.根据权利要求1所述的方法，其特征在于，所述说话者分离模型的语音分离模块和说话者分离模块；所述利用说话者分离模型，对所述样本数据进行处理得到各所述说话者的语音分离掩码，并对所述语音分离掩码和所述样本数据进行处理得到说话者分离结果，包括：利用所述说话者分离模型对所述样本数据进行特征提取，得到样本特征，其中，所述样本特征包括所述样本语音数据的样本语音特征和所述样本图像序列的样本图像特征；利用所述语音分离模块对所述样本特征进行处理，得到各所述说话者的语音分离掩码，其中，所述说话者的语音分离掩码用于过滤不属于所述说话者的语音特征；利用所述说话者分离模块对所述语音分离掩码和所述样本特征进行处理，得到所述说话者分离结果。 5.根据权利要求1所述的方法，其特征在于，所述样本图像序列中的样本图像为所述说话者的唇部图像；和/或，所述说话者分离结果包括各所述说话者在所述样本语音数据对应的各时间片段的说话置信度。 6.一种说话者分离方法，其特征在于，包括：获取目标环境的目标数据，其中，所述目标数据包括同一时间段采集的目标语音数据和所述目标环境中若干说话者的目标图像序列；利用说话者分离模型对所述目标数据进行处理，得到各所述说话者的语音分离掩码；利用所述说话者分离模型对所述语音分离掩码和所述目标数据进行处理，得到说话者分离结果，其中，所述说话者分离结果用于确定所述目标语音数据中的不同时间片段的说权　利　要　求　书 1/3 页 2 CN 114360573 A 2话者。 7.根据权利要求6所述的方法，其特征在于，所述目标图像序列中的目标图像为所述说话者的唇部图像；和/或，在所述获取目标环境的目标数据之前，所述方法还包括：利用权利要求1至 5任一项所述的方法，训练所述说话者分离模型。 8.根据权利要求6所述的方法，其特征在于，所述说话者分离模型的语音分离模块和说话者分离模块；所述利用说话者分离模型对所述目标数据进行处理，得到各所述说话者的语音分离掩码，包括：利用所述说话者分离模型对所述目标数据进行特征提取，得到目标特征，其中，所述目标特征包括所述目标语音数据的目标语音特征和所述目标图像序列的目标图像特征；利用所述语音分离模块对所述目标特征进行处理，得到各所述说话者的语音分离掩码，其中，所述说话者的语音分离掩码用于过滤不属于所述说话者的语音特征；所述利用所述说话者分离模型对所述语音分离掩码和所述目标数据进行处理，得到说话者分离结果，包括：利用所述说话者分离模块对所述语音分离掩码和所述目标特征进行处理，得到所述说话者分离结果。 9.根据权利要求8所述的方法，其特征在于，所述对所述目标数据进行特征提取，得到目标特征，包括：对所述目标语音数据进行短时傅里叶变换，得到频域特征，以作为目标语音特征，以及对各所述说话者的目标图像序列进行特征提取，得到各所述说话者的目标图像特征；所述对所述目标特征进行处理，得到各所述说话者的语音分离掩码，包括：融合所述目标语音特征和所述目标图像特征，得到第一融合特征；基于所述第一融合特征，得到各所述说话者的语音分离掩码；所述对所述语音分离掩码和所述目标特征进行处理，得到所述说话者分离结果，包括：融合所述语音分离掩码、目标语音特征和目标图像特征，得到第二融合特征，其中，所述第二融合特征包括若干第一通道特征，每个第一通道特征对应一个说话者；基于所述第二融合特征，得到所述说话者分离结果。 10.根据权利要求9所述的方法，其特征在于，各所述说话的所述目标图像特征均包括多个时间片段的子图像特征，所述目标语音特征包括多个时间片段的子语音特征，所述融合所述目标语音特征和所述目标图像特征，得到第一融合特征，包括：对于每个所述说话者，将各时间片段的子语音特征分别与所述说话者的对应时间片段的子图像特征进行融合，得到所述说话者的子融合特征，其中，所述若干说话者的子融合特征组成所述第一融合特征；各所述说话者的语音分离掩码均包括多个时间片段的子掩码，所述融合所述语音分离掩码、目标语音特征和目标图像特征，得到第二融合特征，包括：对于每个所述说话者，将不同时间片段的子语音特征分别与所述说话者的对应时间片段的子图像特征和子掩码进行融合，得到所述说话者对应的第一通道特征。 11.根据权利要求9所述的方法，其特征在于，所述基于所述第二融合特征，得到所述说权　利　要　求　书 2/3 页 3 CN 114360573 A 3

专利 说话者分离模型的训练方法和说话者分离方法及相关装置

专利说话者分离模型的训练方法和说话者分离方法及相关装置