专利发音人编码方法、装置及多发音人语音合成系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676653.8 (22)申请日 2021.12.31 (71)申请人达闼机器人有限公司地址 200245 上海市闵行区中青路207号8 幢 (72)发明人董天旭　 (74)专利代理机构北京智晨知识产权代理有限公司 11584 代理人张婧 (51)Int.Cl. G10L 13/08(2013.01) G10L 17/02(2013.01) G10L 17/04(2013.01) G10L 19/00(2013.01) G06K 9/62(2022.01) (54)发明名称发音人编码方法、装置及多发音人语音合成系统 (57)摘要本发明提出一种发音人编码方法、多发音人语音合成系统及训练方法、电子设备，属于语音人机交互领域，能增大相似发音人之间的信息共享，减少不相似发音人之间的相互干扰，从而提高发音的正确率和提高音质。发音人编码方法，包括：获取发音人的训练音频；筛选训练音频中的浊音段，并提取浊音段声纹进行编码；基于浊音段的声纹编码生成发音人编码。权利要求书2页说明书9页附图2页 CN 114267331 A 2022.04.01 CN 114267331 A 1.一种用于多发音人语音合成系统的发音人编码方法，其特征在于，包括：获取发音人的训练音频；筛选训练音频中的浊音段，并提取浊音段声纹进行编码；基于浊音段的声纹编码生成发音人编码。 2.根据权利要求1的发音人编码方法，其特征在于，筛选训练音频中的浊音段时，采用基音周期检测算法确定训练音频中的浊音段。 3.根据权利要求2 的发音人编码方法，其特征在于，筛选训练音频中的浊音段，并提取浊音段声纹进行编码，包括：使用基音周期检测算法获取训练语料的基音周期，根据基音周期剔除训练语料中的轻音和不包含语音的帧，保留浊音帧；使用处理后的训练语料训练声纹提取模型；使用训练好的声纹提取模型，对需要提取声纹的训练音频进行浊音段声纹提取；对提取的浊音段声纹进行编码。 4.根据权利要求3的发音人编码方法，其特征在于，所述声纹提取模型为端到端声纹编码GE2E声纹提取模型；使用基音周期检测算法获取训练语料的基音周期之前，还包括：按照 GE2E的方式提取训练语料的音频特征，音频特征的维度大于等于80；按照GE2E提取音频特征的帧长，使用pyworld工具按提取的帧长提取基音周期，剔除中基音周期为0的音频特征，以及基音周期为0的两侧预设区间内的音频特征；使用剔除处理后的音频特征，训练出GE2E声纹提取模型。 5.根据权利要求1 ‑4任一项的发音人编码方法，其特征在于，基于浊音段的声纹编码生成发音人编码，包括：对发音人的各训练音频的浊音段声纹编码进行聚类处理，基于聚类处理形成的类别中音频数量最多的类别的声纹编码生成发音人编码。 6.根据权利要求5的发音人编码方法，其特征在于，对发音人的各训练音频的浊音段声纹编码，使用k ‑means聚类方法进行聚类处理；对聚类处理后音频数量最多的类别的浊音段声纹编码进行平均，将获得的平均值作为发音人编码。 7.根据权利要求5的发音人编码方法，其特征在于，还包括：计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度，筛选相似度高于第一阈值的训练音频；使用发音人编码和筛选后的发音人的训练音频，训练多发音人语音合成系统。 8.一种发音人编码装置，其特征在于，包括：获取模块，用于获取发音人的训练音频；提取模块，用于筛选训练音频中的浊音段，并提取浊音段声纹进行编码；编码模块，用于基于浊音段的声纹编码生成发音人编码。 9.一种多发音人语音合成系统，其特征在于，发音人使用了权利要求1至7中任一项的发音人编码方法。 10.一种多发音人语音合成系统的训练方法，其特征在于，包括：获取目标发音人的训练音频；权　利　要　求　书 1/2 页 2 CN 114267331 A 2使用权利要求1至7中任一项的发音人编码方法，提取目标发音人浊音段的声纹编码并基于声纹编码生成目标发音人的发音人编码；计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度，筛选相似度高于第一阈值的训练音频；根据所述训练音频构建对应的发音单元向量、音调向量、重读向量和句式标识；以发音单元向量，音调向量，重读向量，句式标识、发音人编码和筛选后的训练音频作为输入，训练多发音人语音合成系统。 11.一种多发音人语音合成系统的训练装置，其特征在于，包括：获取模块，用于获取目标发音人的训练音频；发音人编码模块，用于使用权利要求1至7中任一项的发音人编码方法，提取目标发音人浊音段的声纹编码并基于声纹编码生成目标发音人的发音人编码；筛选模块，用于计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度，筛选相似度高于第一阈值的训练音频；向量构建模块，用于根据所述训练音频构建对应的发音单元向量、音调向量、重读向量和句式标识；输出模块，用于以发音单元向量，音调向量，重读向量，句式标识、发音人编码和筛选后的训练音频作为输入，训练多发音人语音合成系统。 12.一种电子设备，其特征在于，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现权利要求1至7中任一项的发音人编码方法中的步骤。权　利　要　求　书 2/2 页 3 CN 114267331 A 3

专利 发音人编码方法、装置及多发音人语音合成系统

专利发音人编码方法、装置及多发音人语音合成系统