(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111670351.X
(22)申请日 2021.12.31
(71)申请人 南京硅基智能科技有限公司
地址 210012 江苏省南京市雨 花台区凤信
路20号万博科技园C号楼4层
(72)发明人 司马华鹏 王培雨
(74)专利代理 机构 北京弘权知识产权代理有限
公司 11363
代理人 逯长明 许伟群
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 25/30(2013.01)
G10L 25/57(2013.01)
(54)发明名称
数字人生 成模型、 模型的训练方法以及数字
人生成方法
(57)摘要
本申请实施例提供了一种数字人生成模型、
模型的训练方法以及数字人生 成方法, 数字人生
成模型包括: 数据采集模块、 数据预处理模块、 模
型训练模块、 预测处理模块。 模型的训练方法包
括: 采集训练样本视频数据、 对训练样本视频数
据进行预处理、 对所述音频数据进行特征提取、
训练预设的第一神经网络模型、 训练预设的第二
神经网络模型, 生成预测人脸图片、 合成数字人
视频。 数字人生成方法包括: 对视频数据进行人
脸检测和裁剪, 生成裁剪图片和遮住嘴部区域的
人脸图片、 将音频数据、 人脸关键点数据和遮住
嘴部区域的人脸图片输入至数字人生成模型中,
生成数字 人视频、 将音 频数据输入至数字人视频
中, 生成带有 声音的二维数字人视频。
权利要求书3页 说明书10页 附图5页
CN 114419702 A
2022.04.29
CN 114419702 A
1.一种数字人生成模型, 其特征在于, 包括数据采集模块、 数据预处理模块、 模型训练
模块、 预测处 理模块, 其中:
所述数据采集模块用于采集训练样本视频数据, 所述训练样本视频数据包括视频数据
以及与所述视频 数据对应的音频 数据;
所述数据处理模块用于对所述训练样本视频数据进行预处理, 所述预处理包括删除有
干扰的所述音频 数据、 优化所述视频 数据;
所述模型训练模块用于对所述音频数据进行特征提取, 获取对应的样本特征; 将所述
视频数据转换为原始图片, 提取人脸关键点数据和遮住嘴部区域的人脸图片; 通过所述样
本特征训练预设的第一神经网络模型, 获取训练后的音频特征; 通过所述人脸关键点数据、
所述遮住嘴部区域的人脸图片和所述训练后的音频特征, 训练预设的第二神经网络模型,
生成与所述音频 特征对应的预测人脸图片;
所述预测 处理模块用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板
图片, 通过融合技术将所述预测人脸图片与所述原模板图片 融合, 将融合后的所述预测人
脸图片合成与所述音频 数据对应的数字人视频。
2.一种数字人生成模型的训练方法, 应用于权利要求1所述的模型中, 其特征在于, 数
字人生成模型由第一神经网络模型和 第二神经网络模型组成, 对所述数字人生成模型进 行
训练, 包括:
采集训练样本视频数据, 所述训练样本视频数据包括视频数据以及与 所述视频数据对
应的音频 数据;
对所述训练样本视频数据进行预处理, 所述预处理包括删除有干扰的所述音频数据、
优化所述视频 数据;
对所述音频数据进行特征提取, 获取对应的样本特征; 将所述视频数据转换为原始图
片, 提取人脸关键点数据和遮住嘴部区域的人脸图片;
通过所述样本特 征训练预设的第一神经网络模型, 获取训练后的音频 特征;
通过所述人脸关键点数据、 所述遮住嘴部区域的人脸图片和所述训练后的音频特征,
训练预设的第二神经网络模型, 生成与所述音频 特征对应的预测人脸图片;
将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片, 通过融合技术将所
述预测人脸图片与所述原模板图片融合, 将融合后的所述预测人脸图片合成与所述音频数
据对应的数字人视频。
3.根据权利要求2所述的方法, 其特征在于, 提取所述遮住嘴部区域的人脸图片的具体
步骤为:
通过人脸识别库识别所述原始图片, 设定目标圆心和长短轴对所述原始图片绘制椭圆
并将所述原 始图片中的衣领区域切除、 裁 剪头部区域, 获得裁 剪图片;
通过人脸识别库检测所述裁 剪图片中的所述人脸关键点数据;
将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域, 将所述封闭区域填充为黑
色, 生成所述遮住嘴部区域的人脸图片。
4.根据权利要求2所述的方法, 其特征在于, 通过所述样本特征训练预设的第 一神经网
络模型, 获取音频 特征, 包括:
将所述样本特 征对应的音频 数据输入到所述预设的第一神经网络模型;权 利 要 求 书 1/3 页
2
CN 114419702 A
2提取所述音频 特征对应的Fban k音频特征;
通过所述第 一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码
和解码, 获取通过 所述第一神经网络模型训练后的音频 特征。
5.根据权利要求2所述的方法, 其特征在于, 通过所述人脸关键点数据、 所述遮住嘴部
区域的人脸图片和所述训练后的音频 特征, 训练预设的第二神经网络模型, 包括:
将所述训练后的音频特征输入所述第 二神经网络中的音频编码网路, 获取输出音频编
码特征;
将所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述第二神经网络中的
图像编码网络, 获取 所述图像编码特 征;
将所述输出音频编码特 征与所述图像编码特 征进行拼接, 得到拼接特 征;
将所述拼接特征输入至所述第 二神经网络模型中的解码网络, 获得与输入的所述音频
数据人脸口型对应的预测人脸图片。
6.根据权利要求5所述的方法, 其特征在于, 所述第 二神经网络模型采用生成式对抗网
络技术, 并且所述第二神经网络模型 由生成器和判别器组成, 通过所述生成器与所述判别
器对所述第二神经网络模型的进行训练, 包括:
将提取的所述人脸关键点数据输入第一卷积网络, 获得 人脸关键点编码特 征;
将所述遮住嘴部区域的人脸图片输入第二卷积网络, 获得 所述图像编码特 征;
将通过所述第一神经网络模型训练后的音频特征, 输入所述音频编码网络, 获得与所
述图像编码特 征维度相同的输出音频编码特 征;
将所述人脸关键点编码特征、 所述图像编码特征和所述输出音频编码特征拼接到一
起, 获得所述拼接特征;
将所述拼接特征输入第三卷积网络, 对所述 拼接特征进行卷积与融合;
抽取降低到目标维度的拼接特 征, 并对降低到目标维度的拼接特 征进行解码;
通过转置神经网络对所述降低到目标维度的拼接特征, 进行升维操作还原人脸图片信
息, 输出所述预测人脸图片;
通过所述判别器, 判别所述预测人脸图片的真实程度。
7.根据权利要求6所述的方法, 其特征在于, 所述第 二神经网络模型中在所述生成器与
所述判断器之后还通过设计损失函数进行训练, 所述损失函数包括第一损失函数、 第二损
失函数和第三损失函数, 具体包括:
所述第一损 失函数, 通过直接比对真实人脸图片和所述预测人脸图片的绝对差值, 评
价所述预测人脸图片中数字人的 口型准确度;
所述第二损 失函数, 通过计算所述判别器的输出和标签的平方差, 判别所述预测人脸
图片中数字人的真实程度;
所述第三损失函数, 计算所述预测人脸图片和所述真实人脸图片输入所述第 三损失函
数对应的卷积神经网络后提取的特 征差值。
8.一种数字人生成方法, 其特 征在于, 包括:
获取目标场景模板视频数据和所述视频数据对应的音频数据, 对所述视频数据进行人
脸检测和裁剪, 生成裁 剪图片和遮住嘴部区域的人脸图片;
对所述裁剪图片进行处理, 提取人脸关键点数据; 将所述音频数据、 所述人脸关键点数权 利 要 求 书 2/3 页
3
CN 114419702 A
3
专利 数字人生成模型、模型的训练方法以及数字人生成方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:51:03上传分享