全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210166388.7 (22)申请日 2022.02.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 魏舒 周超勇 刘玉宇 曾平安  赵记坤  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 陈春芹 (51)Int.Cl. G06V 10/774(2022.01) G06V 40/16(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 20/40(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 17/00(2006.01) G06T 13/40(2011.01) (54)发明名称 模型的训练方法、 视频生成方法和装置、 设 备、 介质 (57)摘要 本实施例提供一种模 型的训练方法、 视频生 成方法和装置、 设备、 介质, 属于人工智能技术领 域。 包括: 获取人脸图像, 对人脸图像进行特征提 取得到第一特征图像; 将第一特征图像和预设的 虚拟人脸特征数据进行特征拼接得到联合特征 图像, 能够保证训练出不同类型的虚拟人脸图 像; 通过预设的自注意力模型对第一特征图像进 行自注意力处理, 得到第二特征图像; 对联合特 征图像和第二特征图像进行特征提取处理, 得到 第三特征图像; 根据第三特征图像对 预设的神经 网络模型进行训练处理, 得到虚拟人脸图像生成 模型。 本实施例通过加入自注意力模型, 能够在 训练过程中让神经网络模型更专注于重点区域 的学习, 减少模型训练的时间, 从而提高模型的 训练效率。 权利要求书2页 说明书14页 附图7页 CN 114529785 A 2022.05.24 CN 114529785 A 1.一种模型的训练方法, 其特征在于, 所述训练方法用于训练虚拟人脸图像生成模型, 包括: 获取人脸图像, 对所述人脸图像进行 特征提取处 理, 得到第一特 征图像; 将所述第一特征图像和预设的虚拟人脸特征数据进行特征拼接处理, 得到联合特征图 像; 通过预设的自注意力模型对所述第一特征图像进行自注意力处理, 得到第二特征图 像; 对所述联合特 征图像和所述第二特 征图像进行 特征提取处 理, 得到第三特 征图像; 根据所述第三特征图像对预设的神经网络模型进行训练, 得到虚拟人脸图像生成模 型。 2.根据权利要求1所述的训练方法, 其特 征在于, 所述获取 人脸图像, 包括: 获取真实人脸视频; 获取所述真实人脸视频中每一帧对应的视频帧图像; 提取所述视频帧图像的3DM M特征和下半脸区域; 将所述3DM M特征与所述下半脸区域进行贴合处 理, 得到所述人脸图像。 3.根据权利要求1所述的训练方法, 其特征在于, 所述自注意力模型包括: 第一神经网 络和第二神经网络; 所述通过预设的自注意力模型对所述第一特征图像进行自注意力处 理, 得到第二特 征图像, 包括: 通过所述第一神经网络对所述第一特 征图像进行 特征提取处 理, 得到第一特 征矩阵; 通过所述第二神经网络对所述第一特 征图像进行强化处 理, 得到第二特 征矩阵; 对所述第一特 征矩阵和所述第二特 征矩阵相乘, 得到第三特 征矩阵; 对所述第三特 征矩阵进行 卷积和谱 归一化处理, 得到第四特 征图像; 将所述第一特征图像的像素与所述第四特征图像的像素相加, 得到所述第二特征图 像。 4.根据权利要求3所述的训练方法, 其特征在于, 所述第二神经网络包括卷积层、 归一 化层、 池化层和分类器; 所述通过所述第二神经网络对所述第一特征图像进行强化处理, 得 到第二特 征矩阵, 包括: 通过所述卷积层对所述第一特 征图像进行 卷积处理, 得到卷积矩阵; 通过所述归一 化层对所述卷积矩阵进行谱 归一化处理, 得到归一 化矩阵; 通过所述池化层对所述归一 化矩阵进行最大池化处 理, 得到最大池化矩阵; 将所述归一 化矩阵和所述 最大池化矩阵相乘, 得到第四特 征矩阵; 通过所述分类 器对所述第四特 征矩阵进行分类处 理, 得到所述第二特 征矩阵。 5.根据权利要求1至4任一项所述的训练方法, 其特征在于, 所述神经网络模型包括判 别器; 所述根据所述第三特征图像对预设的神经网络模型进行训练处理, 得到虚拟人脸图 像生成模型, 包括: 通过所述判别器 计算所述第三特 征图像的图像真实值; 根据所述图像真实值对所述神经网络模型的损失函数进行计算, 得到损失值; 将所述损 失值作为反向传播量, 调整所述神经网络模型的模型参数, 以训练所述神经 网络模型, 得到所述虚拟人脸图像生成模型。权 利 要 求 书 1/2 页 2 CN 114529785 A 26.一种视频生成方法, 其特 征在于, 用于生成目标 人脸视频, 包括: 获取文本数据和目标虚拟人脸的虚拟人脸特 征数据; 将所述文本数据和所述虚拟人脸特征数据输入至虚拟人脸图像生成模型进行图像生 成处理, 得到多个连续帧说话图像; 其中, 所述虚拟人脸图像生 成模型根据如权利要求 1至5 任一项所述的训练方法训练得到; 对所述多个连续帧说话图像进行图像拼接处 理, 得到初始人脸视频; 对所述文本数据进行语音转换处 理, 得到目标语音; 根据所述目标语音对所述初始视频进行语音合成处 理, 得到目标 人脸视频。 7.一种模型的训练装置, 其特 征在于, 用于训练虚拟人脸图像生成模型, 包括: 第一特征提取模块: 用于获取人脸图像, 对所述人脸图像进行特征提取处理, 得到第一 特征图像; 第一拼接模块: 用于将所述第 一特征图像和预设的虚拟人脸特征数据进行特征拼接处 理, 得到联合特 征图像; 自注意力处理模块: 用于通过预设的自注意力模型对所述第 一特征图像进行自注意力 处理, 得到第二特 征图像; 第二特征提取模块: 用于对所述联合特征图像和所述第二特征图像进行特征提取处 理, 得到第三特 征图像; 模型训练模块: 用于根据所述第三特征图像对预设的神经网络模型进行训练, 得到虚 拟人脸图像生成模型。 8.一种视频生成装置, 其特 征在于, 用于生成目标 人脸视频, 包括: 数据获取模块: 用于获取文本数据和目标虚拟人脸的虚拟人脸特 征数据; 图像生成模块: 用于将所述文本数据和所述虚拟人脸特征数据输入至虚拟人脸图像生 成模型进 行图像生成处理, 得到多个连续帧说话图像; 其中, 所述虚拟人脸图像生成模型根 据如权利要求1至 5任一项所述的训练方法训练得到; 第二拼接模块: 用于对所述多个连续帧说话图像进行图像拼接处理, 得到初始人脸视 频; 语音转换模块: 用于对所述文本数据进行语音转换处 理, 得到目标语音; 语音合成模块: 用于根据所述目标语音对所述初始视频进行语音合成处理, 得到目标 人脸视频。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和 处理器, 其中, 所述存 储器中存 储有计算机程序, 所述计算机程序被所述处 理器执行时所述处 理器用于执 行: 如权利要求1至 5中任一项所述的训练方法; 或 如权利要求6所述的视频生成方法。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可 读存储有计算机程序, 在所述计算机程序被 计算机执 行时, 所述计算机用于执 行: 如权利要求1至 5中任一项所述的训练方法; 或 如权利要求6所述的视频生成方法。权 利 要 求 书 2/2 页 3 CN 114529785 A 3

.PDF文档 专利 模型的训练方法、视频生成方法和装置、设备、介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型的训练方法、视频生成方法和装置、设备、介质 第 1 页 专利 模型的训练方法、视频生成方法和装置、设备、介质 第 2 页 专利 模型的训练方法、视频生成方法和装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。