(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111642741.6
(22)申请日 2021.12.2 9
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 王迪松 阳珊 苏丹 俞栋
(74)专利代理 机构 北京市立方律师事务所
11330
代理人 张筱宁
(51)Int.Cl.
G10L 13/027(2013.01)
G10L 13/08(2013.01)
G10L 25/30(2013.01)
G06N 3/08(2006.01)
(54)发明名称
语音合成方法、 装置、 电子设备及计算机可
读存储介质
(57)摘要
本申请实施例提供了一种语音合 成方法、 装
置、 电子设备及计算机可读存储介质, 涉及人工
智能、 多媒体、 语音合成及云技术领域。 该方法包
括: 对待处理视频中各目标对象对应的唇部图像
序列分别进行特征提取, 得到个目标对象的唇语
特征; 对于每个目标对象, 基于该目标对象的唇
语特征, 通过第一语音内容预测网络预测该目标
对象的语音内容特征; 提取每个目标对象的参考
语音数据的音色特征; 对于每个目标对象, 根据
该目标对象的语音内容特征和音色特征, 通过音
频特征预测网络预测得到该目标对象的音频特
征, 根据该目标对象的音频特征, 得到该目标对
象对应于待处理视频的目标语音数据。 基于本申
请实施例提供的该方法, 能够基于视频生成高质
量的语音数据。
权利要求书4页 说明书28页 附图7页
CN 114360491 A
2022.04.15
CN 114360491 A
1.一种语音合成方法, 其特 征在于, 所述方法包括:
获取待处 理视频, 所述待处 理视频中包 含至少一个目标对象;
对所述待处理视频中每个所述目标对象对应的唇部图像序列分别进行特征提取, 得到
每个所述目标对象的唇语特 征;
对于每个所述目标对象, 基于该目标对象的唇语特征, 通过调用第一语音内容预测网
络预测得到该目标对 象的语音内容特征; 其中, 所述第一语音内容预测网络是基于第一训
练数据集训练得到的, 所述第一训练数据集中包括多个样本视频以及每个样本视频对应的
第一样本语音数据;
获取每个所述目标对象的参考语音数据, 并提取每个所述目标对象的参考语音数据的
音色特征;
对于每个所述目标对象, 根据该目标对象的语音内容特征和音色特征, 通过调用音频
特征预测网络预测得到该目标对 象的音频特征, 根据该目标对 象的音频特征, 得到该目标
对象对应于所述待处 理视频的目标语音数据。
2.根据权利要求1所述的方法, 其特征在于, 对于每个所述目标对象, 所述根据该目标
对象的语音内容特征和音色特征, 通过调用音频特征预测网络预测得到该目标对象的音频
特征, 包括:
根据该目标对象的语音内容特征和音色特征, 通过调用基频预测模型预测得到该目标
对象的基频 特征;
根据该目标对象的语音内容特征、 音色特征和基频特征, 通过调用音频特征预测模型
预测得到该目标对 象的音频特征, 其中, 所述音频特征预测网络包括所述基频预测模型和
所述音频 特征预测模型。
3.根据权利要求1或2所述的方法, 其特征在于, 对于每个所述目标对象, 所述基于该目
标对象的唇语特征, 通过调用第一语音内容预测网络预测得到该目标对象的语音内容特
征, 包括:
基于该目标对象的唇语特征, 通过所述第 一语音内容预测网络预测得到该目标对象对
应的目标索引序列, 其中, 所述 目标索引序列中的各目标索引值是说话人向量量化VQ码本
中语音单元内容特征的索引, 其中, 所述说话人V Q码本是基于第二训练数据集训练得到的,
其中, 所述第二训练数据集中包括多个第二样本语音数据; 所述第一语音内容预测网络是
基于所述第一训练数据集和所述说话人VQ码本训练得到的;
根据所述目标索引序列和所述说话人VQ码本, 得到所述各目标索引值对应的语音单元
内容特征;
基于所述各目标索引值对应的语音单 元内容特 征, 得到该目标对象的语音内容特 征。
4.根据权利要求3所述的方法, 其特征在于, 所述第 一语音内容预测网络是通过以下方
式对第一神经网络模型进行训练得到的:
对于每个所述样本视频, 对该样本视频中样本对象对应的唇部图像序列进行特征提
取, 得到该样本 视频对应的唇语特 征;
对于每个所述第一样本语音数据, 基于该第一样本语音数据和所述说话人VQ码本, 获
取该第一样本语音数据对应的样本索引序列;
基于各所述样本视频对应的唇语特征和样本索引序列, 对第 一神经网络模型重复进行权 利 要 求 书 1/4 页
2
CN 114360491 A
2第一训练操作, 直至所述第一神经网络模型对应的第一训练损失满足第一训练结束条件,
将满足所述第一训练结束 条件时的第一神经网络模型作为所述第一语音内容预测网络, 其
中, 所述第一训练操作包括:
对于每个所述样本视频, 基于该样本视频对应的唇语特征, 通过第一神经网络模型预
测得到该样本 视频对应的预测索引序列;
基于各所述样本视频对应的样本索引序列和预测索引序列之间的差异, 确定第 一训练
损失;
若所述第一训练损失不满足第 一训练结束条件, 则对所述第 一神经网络模型的模型参
数进行调整。
5.根据权利要求4所述的方法, 其特征在于, 对于每个所述第一样本语音数据, 所述基
于该第一样本语音 数据和所述说话人V Q码本, 获取该第一样本语音 数据对应的样本索引序
列, 包括:
获取该第一样本语音数据的音频特征, 并基于该音频特征, 通过调用第二语音内容预
测网络提取 得到该第一样本语音数据的第一内容特 征;
根据该第一样本语音数据的第 一内容特征和所述说话人VQ码本, 得到该第 一样本语音
数据对应的样本索引序列。
6.根据权利要求5所述的方法, 其特征在于, 所述说话人VQ码本包括多个语音单元内容
特征;
对于每个所述第一样本语音数据, 所述获取该第一样本语音数据的音频特征, 并基于
该音频特征, 通过调用第二语音内容预测网络提取得到该第一样本语音 数据的第一内容特
征, 包括:
将该第一样本语音数据进行分帧处 理, 得到至少两个 语音帧;
获取所述至少两个 语音帧中的音频 特征;
基于所述音频特征, 通过调用所述第 二语音内容预测网络提取得到该第 一样本语音数
据的第一内容特征, 其中, 所述第一内容特征包括所述至少 两个语音帧对应的至少 两个子
内容特征;
对于每个所述第一样本语音数据, 所述根据 该第一样本语音数据的第 一内容特征和所
述说话人VQ码本, 得到该样本语音数据对应的样本索引序列, 包括:
对于该样本语音数据的第 一内容特征中的每个子 内容特征, 基于该子 内容特征与 所述
说话人VQ码本中各个语音单元内容特征的匹配度, 将最高匹配度对应的语音 单元内容特征
的索引值, 确定为该子内容特 征对应的索引值;
将各个子内容特征对应的索引值, 按照各个子 内容特征在第 一内容特征中的时序信 息
组合, 得到该样本语音数据对应的样本索引序列。
7.根据权利要求5所述的方法, 其特征在于, 所述音频特征预测网络、 第二语音内容预
测网络和所述说话人VQ码本是通过以下 方式训练得到的:
获取所述第二训练数据集以及 初始的待训练VQ码本;
获取所述第二训练数据集中各第二样本语音数据的样本音频 特征;
对于每个所述第二样本语音数据, 根据该第二样本语音数据的样本音频特征, 提取该
第二样本语音数据对应的音色特 征;权 利 要 求 书 2/4 页
3
CN 114360491 A
3
专利 语音合成方法、装置、电子设备及计算机可读存储介质
安全报告 >
其他 >
文档预览
中文文档
40 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:56:53上传分享