专利 数字人生成模型、模型的训练方法以及数字人生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111670351.X (22)申请日 2021.12.31 (71)申请人南京硅基智能科技有限公司地址 210012 江苏省南京市雨花台区凤信路20号万博科技园C号楼4层 (72)发明人司马华鹏　王培雨　 (74)专利代理机构北京弘权知识产权代理有限公司 11363 代理人逯长明　许伟群 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/30(2013.01) G10L 25/57(2013.01) (54)发明名称数字人生成模型、模型的训练方法以及数字人生成方法 (57)摘要本申请实施例提供了一种数字人生成模型、模型的训练方法以及数字人生成方法，数字人生成模型包括：数据采集模块、数据预处理模块、模型训练模块、预测处理模块。模型的训练方法包括：采集训练样本视频数据、对训练样本视频数据进行预处理、对所述音频数据进行特征提取、训练预设的第一神经网络模型、训练预设的第二神经网络模型，生成预测人脸图片、合成数字人视频。数字人生成方法包括：对视频数据进行人脸检测和裁剪，生成裁剪图片和遮住嘴部区域的人脸图片、将音频数据、人脸关键点数据和遮住嘴部区域的人脸图片输入至数字人生成模型中，生成数字人视频、将音频数据输入至数字人视频中，生成带有声音的二维数字人视频。权利要求书3页说明书10页附图5页 CN 114419702 A 2022.04.29 CN 114419702 A 1.一种数字人生成模型，其特征在于，包括数据采集模块、数据预处理模块、模型训练模块、预测处理模块，其中：所述数据采集模块用于采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；所述数据处理模块用于对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；所述模型训练模块用于对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；所述预测处理模块用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。 2.一种数字人生成模型的训练方法，应用于权利要求1所述的模型中，其特征在于，数字人生成模型由第一神经网络模型和第二神经网络模型组成，对所述数字人生成模型进行训练，包括：采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。 3.根据权利要求2所述的方法，其特征在于，提取所述遮住嘴部区域的人脸图片的具体步骤为：通过人脸识别库识别所述原始图片，设定目标圆心和长短轴对所述原始图片绘制椭圆并将所述原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片；通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据；将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域，将所述封闭区域填充为黑色，生成所述遮住嘴部区域的人脸图片。 4.根据权利要求2所述的方法，其特征在于，通过所述样本特征训练预设的第一神经网络模型，获取音频特征，包括：将所述样本特征对应的音频数据输入到所述预设的第一神经网络模型；权　利　要　求　书 1/3 页 2 CN 114419702 A 2提取所述音频特征对应的Fban k音频特征；通过所述第一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码和解码，获取通过所述第一神经网络模型训练后的音频特征。 5.根据权利要求2所述的方法，其特征在于，通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，包括：将所述训练后的音频特征输入所述第二神经网络中的音频编码网路，获取输出音频编码特征；将所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述第二神经网络中的图像编码网络，获取所述图像编码特征；将所述输出音频编码特征与所述图像编码特征进行拼接，得到拼接特征；将所述拼接特征输入至所述第二神经网络模型中的解码网络，获得与输入的所述音频数据人脸口型对应的预测人脸图片。 6.根据权利要求5所述的方法，其特征在于，所述第二神经网络模型采用生成式对抗网络技术，并且所述第二神经网络模型由生成器和判别器组成，通过所述生成器与所述判别器对所述第二神经网络模型的进行训练，包括：将提取的所述人脸关键点数据输入第一卷积网络，获得人脸关键点编码特征；将所述遮住嘴部区域的人脸图片输入第二卷积网络，获得所述图像编码特征；将通过所述第一神经网络模型训练后的音频特征，输入所述音频编码网络，获得与所述图像编码特征维度相同的输出音频编码特征；将所述人脸关键点编码特征、所述图像编码特征和所述输出音频编码特征拼接到一起，获得所述拼接特征；将所述拼接特征输入第三卷积网络，对所述拼接特征进行卷积与融合；抽取降低到目标维度的拼接特征，并对降低到目标维度的拼接特征进行解码；通过转置神经网络对所述降低到目标维度的拼接特征，进行升维操作还原人脸图片信息，输出所述预测人脸图片；通过所述判别器，判别所述预测人脸图片的真实程度。 7.根据权利要求6所述的方法，其特征在于，所述第二神经网络模型中在所述生成器与所述判断器之后还通过设计损失函数进行训练，所述损失函数包括第一损失函数、第二损失函数和第三损失函数，具体包括：所述第一损失函数，通过直接比对真实人脸图片和所述预测人脸图片的绝对差值，评价所述预测人脸图片中数字人的口型准确度；所述第二损失函数，通过计算所述判别器的输出和标签的平方差，判别所述预测人脸图片中数字人的真实程度；所述第三损失函数，计算所述预测人脸图片和所述真实人脸图片输入所述第三损失函数对应的卷积神经网络后提取的特征差值。 8.一种数字人生成方法，其特征在于，包括：获取目标场景模板视频数据和所述视频数据对应的音频数据，对所述视频数据进行人脸检测和裁剪，生成裁剪图片和遮住嘴部区域的人脸图片；对所述裁剪图片进行处理，提取人脸关键点数据；将所述音频数据、所述人脸关键点数权　利　要　求　书 2/3 页 3 CN 114419702 A 3

专利 数字人生成模型、模型的训练方法以及数字人生成方法

专利数字人生成模型、模型的训练方法以及数字人生成方法