全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676653.8 (22)申请日 2021.12.31 (71)申请人 达闼机器人有限公司 地址 200245 上海市闵行区中青路207号8 幢 (72)发明人 董天旭  (74)专利代理 机构 北京智晨知识产权代理有限 公司 11584 代理人 张婧 (51)Int.Cl. G10L 13/08(2013.01) G10L 17/02(2013.01) G10L 17/04(2013.01) G10L 19/00(2013.01) G06K 9/62(2022.01) (54)发明名称 发音人编码方法、 装置及 多发音人语音合成 系统 (57)摘要 本发明提出一种发音人编码方法、 多发音人 语音合成系统及训练方法、 电子设备, 属于语音 人机交互领域, 能增大相似发音人之间的信息共 享, 减少不相似发音人之间的相互干扰, 从而提 高发音的正确率和提高音质。 发音人编码方法, 包括: 获取发音人的训练音频; 筛选训练音频中 的浊音段, 并提取浊音段声纹进行编码; 基于浊 音段的声纹编码生成 发音人编码。 权利要求书2页 说明书9页 附图2页 CN 114267331 A 2022.04.01 CN 114267331 A 1.一种用于多发音人语音合成系统的发音人编码方法, 其特 征在于, 包括: 获取发音人的训练音频; 筛选训练音频中的浊音段, 并提取 浊音段声纹进行编码; 基于浊音段的声纹编码生成发音人编码。 2.根据权利要求1的发音人编码方法, 其特征在于, 筛选训练音频中的浊音段时, 采用 基音周期检测算法确定训练音频中的浊音段。 3.根据权利要求2 的发音人编码方法, 其特征在于, 筛选训练音频中的浊音段, 并提取 浊音段声纹进行编码, 包括: 使用基音周期检测算法获取训练语料的基音周期, 根据基音周期剔除训练语料中的轻 音和不包 含语音的帧, 保留浊音帧; 使用处理后的训练语料训练声纹提取模型; 使用训练好的声纹提取模型, 对需要提取声纹的训练音频进行 浊音段声纹提取; 对提取的浊音段声纹进行编码。 4.根据权利要求3的发音人编码方法, 其特征在于, 所述声纹提取模型为端到端声纹编 码GE2E声纹提取模 型; 使用基音周期 检测算法获取训练语料的基音周期之前, 还包括: 按照 GE2E的方式提取训练语料的音频 特征, 音频特征的维度大于等于80; 按照GE2E提取音频特征的帧长, 使用pyworld工具按提取的帧长提取基音周期, 剔除中 基音周期为0的音频 特征, 以及基音周期为0的两侧预设区间内的音频 特征; 使用剔除处 理后的音频 特征, 训练出GE2E声纹提取模型。 5.根据权利要求1 ‑4任一项的发音人编码方法, 其特征在于, 基于浊音段的声纹编码生 成发音人编码, 包括: 对发音人的各训练音频的浊音段声纹编码进行聚类处理, 基于聚类处理形成的类别中 音频数量最多的类别的声纹编码生成发音人编码。 6.根据权利要求5的发音人编码方法, 其特 征在于, 对发音人的各训练音频的浊音段声纹编码, 使用k ‑means聚类方法进行聚类处 理; 对聚类处理后音频数量最多的类别的浊音段声纹编码进行平均, 将 获得的平均值作为 发音人编码。 7.根据权利要求5的发音人编码方法, 其特 征在于, 还 包括: 计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度, 筛选相似度高于 第一阈值的训练音频; 使用发音人编码和筛 选后的发音人的训练音频, 训练多发音人语音合成系统。 8.一种发音人编码装置, 其特 征在于, 包括: 获取模块, 用于获取发音人的训练音频; 提取模块, 用于 筛选训练音频中的浊音段, 并提取 浊音段声纹进行编码; 编码模块, 用于基于浊音段的声纹编码生成发音人编码。 9.一种多发音人语音合成系统, 其特征在于, 发音人使用了权利要求1至7中任一项的 发音人编码方法。 10.一种多发音人语音合成系统的训练方法, 其特 征在于, 包括: 获取目标发音人的训练音频;权 利 要 求 书 1/2 页 2 CN 114267331 A 2使用权利要求1至7中任一项的发音人编码方法, 提取目标发音人浊音段的声纹编码并 基于声纹编码生成目标发音人的发音人编码; 计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度, 筛选相似度高于 第一阈值的训练音频; 根据所述训练音频构建对应的发音单 元向量、 音调向量、 重读向量和句式标识; 以发音单元向量, 音调向量, 重读向量, 句式标识、 发音人编码和筛选后的训练音频作 为输入, 训练多发音人语音合成系统。 11.一种多发音人语音合成系统的训练装置, 其特 征在于, 包括: 获取模块, 用于获取目标发音人的训练音频; 发音人编码模块, 用于使用权利要求1至7中任一项的发音人编码方法, 提取目标发音 人浊音段的声纹编码并基于声纹编码生成目标发音人的发音人编码; 筛选模块, 用于计算发音人编码与对发音人的各训练音频的声纹编码的余弦相似度, 筛选相似度高于第一阈值的训练音频; 向量构建模块, 用于根据 所述训练音频构建对应的发音单元向量、 音调向量、 重读向量 和句式标识; 输出模块, 用于以发音单元向量, 音调向量, 重读向量, 句式标识、 发音人编码和筛选后 的训练音频作为输入, 训练多发音人语音合成系统。 12.一种电子设备, 其特征在于, 电子设备包括存储器和 处理器, 存储器存储有计算机 程序, 处理器执行计算机程序时, 实现权利要求1至7中任一项的发音人编码方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114267331 A 3

.PDF文档 专利 发音人编码方法、装置及多发音人语音合成系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 发音人编码方法、装置及多发音人语音合成系统 第 1 页 专利 发音人编码方法、装置及多发音人语音合成系统 第 2 页 专利 发音人编码方法、装置及多发音人语音合成系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:44:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。