专利 语音合成方法、装置、电子设备及计算机可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111642741.6 (22)申请日 2021.12.2 9 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人王迪松　阳珊　苏丹　俞栋　 (74)专利代理机构北京市立方律师事务所 11330 代理人张筱宁 (51)Int.Cl. G10L 13/027(2013.01) G10L 13/08(2013.01) G10L 25/30(2013.01) G06N 3/08(2006.01) (54)发明名称语音合成方法、装置、电子设备及计算机可读存储介质 (57)摘要本申请实施例提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，涉及人工智能、多媒体、语音合成及云技术领域。该方法包括：对待处理视频中各目标对象对应的唇部图像序列分别进行特征提取，得到个目标对象的唇语特征；对于每个目标对象，基于该目标对象的唇语特征，通过第一语音内容预测网络预测该目标对象的语音内容特征；提取每个目标对象的参考语音数据的音色特征；对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。基于本申请实施例提供的该方法，能够基于视频生成高质量的语音数据。权利要求书4页说明书28页附图7页 CN 114360491 A 2022.04.15 CN 114360491 A 1.一种语音合成方法，其特征在于，所述方法包括：获取待处理视频，所述待处理视频中包含至少一个目标对象；对所述待处理视频中每个所述目标对象对应的唇部图像序列分别进行特征提取，得到每个所述目标对象的唇语特征；对于每个所述目标对象，基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征；其中，所述第一语音内容预测网络是基于第一训练数据集训练得到的，所述第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据；获取每个所述目标对象的参考语音数据，并提取每个所述目标对象的参考语音数据的音色特征；对于每个所述目标对象，根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于所述待处理视频的目标语音数据。 2.根据权利要求1所述的方法，其特征在于，对于每个所述目标对象，所述根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，包括：根据该目标对象的语音内容特征和音色特征，通过调用基频预测模型预测得到该目标对象的基频特征；根据该目标对象的语音内容特征、音色特征和基频特征，通过调用音频特征预测模型预测得到该目标对象的音频特征，其中，所述音频特征预测网络包括所述基频预测模型和所述音频特征预测模型。 3.根据权利要求1或2所述的方法，其特征在于，对于每个所述目标对象，所述基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征，包括：基于该目标对象的唇语特征，通过所述第一语音内容预测网络预测得到该目标对象对应的目标索引序列，其中，所述目标索引序列中的各目标索引值是说话人向量量化VQ码本中语音单元内容特征的索引，其中，所述说话人V Q码本是基于第二训练数据集训练得到的，其中，所述第二训练数据集中包括多个第二样本语音数据；所述第一语音内容预测网络是基于所述第一训练数据集和所述说话人VQ码本训练得到的；根据所述目标索引序列和所述说话人VQ码本，得到所述各目标索引值对应的语音单元内容特征；基于所述各目标索引值对应的语音单元内容特征，得到该目标对象的语音内容特征。 4.根据权利要求3所述的方法，其特征在于，所述第一语音内容预测网络是通过以下方式对第一神经网络模型进行训练得到的：对于每个所述样本视频，对该样本视频中样本对象对应的唇部图像序列进行特征提取，得到该样本视频对应的唇语特征；对于每个所述第一样本语音数据，基于该第一样本语音数据和所述说话人VQ码本，获取该第一样本语音数据对应的样本索引序列；基于各所述样本视频对应的唇语特征和样本索引序列，对第一神经网络模型重复进行权　利　要　求　书 1/4 页 2 CN 114360491 A 2第一训练操作，直至所述第一神经网络模型对应的第一训练损失满足第一训练结束条件，将满足所述第一训练结束条件时的第一神经网络模型作为所述第一语音内容预测网络，其中，所述第一训练操作包括：对于每个所述样本视频，基于该样本视频对应的唇语特征，通过第一神经网络模型预测得到该样本视频对应的预测索引序列；基于各所述样本视频对应的样本索引序列和预测索引序列之间的差异，确定第一训练损失；若所述第一训练损失不满足第一训练结束条件，则对所述第一神经网络模型的模型参数进行调整。 5.根据权利要求4所述的方法，其特征在于，对于每个所述第一样本语音数据，所述基于该第一样本语音数据和所述说话人V Q码本，获取该第一样本语音数据对应的样本索引序列，包括：获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征；根据该第一样本语音数据的第一内容特征和所述说话人VQ码本，得到该第一样本语音数据对应的样本索引序列。 6.根据权利要求5所述的方法，其特征在于，所述说话人VQ码本包括多个语音单元内容特征；对于每个所述第一样本语音数据，所述获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，包括：将该第一样本语音数据进行分帧处理，得到至少两个语音帧；获取所述至少两个语音帧中的音频特征；基于所述音频特征，通过调用所述第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，其中，所述第一内容特征包括所述至少两个语音帧对应的至少两个子内容特征；对于每个所述第一样本语音数据，所述根据该第一样本语音数据的第一内容特征和所述说话人VQ码本，得到该样本语音数据对应的样本索引序列，包括：对于该样本语音数据的第一内容特征中的每个子内容特征，基于该子内容特征与所述说话人VQ码本中各个语音单元内容特征的匹配度，将最高匹配度对应的语音单元内容特征的索引值，确定为该子内容特征对应的索引值；将各个子内容特征对应的索引值，按照各个子内容特征在第一内容特征中的时序信息组合，得到该样本语音数据对应的样本索引序列。 7.根据权利要求5所述的方法，其特征在于，所述音频特征预测网络、第二语音内容预测网络和所述说话人VQ码本是通过以下方式训练得到的：获取所述第二训练数据集以及初始的待训练VQ码本；获取所述第二训练数据集中各第二样本语音数据的样本音频特征；对于每个所述第二样本语音数据，根据该第二样本语音数据的样本音频特征，提取该第二样本语音数据对应的音色特征；权　利　要　求　书 2/4 页 3 CN 114360491 A 3

专利 语音合成方法、装置、电子设备及计算机可读存储介质

专利语音合成方法、装置、电子设备及计算机可读存储介质