专利 唇形驱动方法、唇形驱动模型的训练方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211306264.0 (22)申请日 2022.10.25 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人周航　孙亚圣　何栋梁　刘经拓　 (74)专利代理机构北京品源专利代理有限公司 11332 专利代理师马迪 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 13/20(2011.01) G06T 13/60(2011.01)G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) G10L 15/02(2006.01) (54)发明名称唇形驱动方法、唇形驱动模型的训练方法、装置及设备 (57)摘要本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备，涉及计算机视觉、增强现实、虚拟现实等人工智能技术领域，可应用于元宇宙、虚拟数字人等场景。具体实现方案为：将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；根据所述第二唇形图像数据和所述判别结果，确定训练损失；根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。权利要求书4页说明书14页附图7页 CN 115376211 A 2022.11.22 CN 115376211 A 1.一种唇形驱动模型的训练方法，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；所述方法包括：将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据；将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；根据所述第二唇形图像数据和所述判别结果，确定训练损失；根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。 2.根据权利要求1所述的方法，其中，所述唇形增强网络包括编码子网络、注意力网络和解码子网络；所述将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据，包括：采用所述编码子网络对所述第一唇形图像数据和所述样本脸部图像数据进行编码，得到样本编码特征；采用所述注意力网络对所述样本编码特征进行变换，得到经变换的样本编码特征；采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据。 3.根据权利要求2所述的方法，其中，所述编码子网络包括至少一个编码单元；所述解码子网络包括至少一个解码单元；所述解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；所述采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据，包括：采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征；其中，所述输入特征包括经变换的样本编码特征或所述解码单元的上一解码单元输出的第二解码特征；采用所述解码单元的特征拼接层对所述第一解码特征和所述样本编码特征进行拼接，得到拼接特征；其中，所述样本编码特征为所述解码单元对应的编码子网络中编码单元输出；采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征；采用所述解码单元的图像转换层对所述第二解码特征进行图像转换，得到中间唇形图像数据；若所述解码单元为所述解码子网络的末尾解码单元，则将所述中间唇形图像数据作为第二唇形图像数据。 4.根据权利要求3所述的方法，其中，所述采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征，包括：根据所述样本音频特征对第一反卷积层的第一卷积核权重进行调整，得到经调整的第权　利　要　求　书 1/4 页 2 CN 115376211 A 2一卷积核权重；通过第一反卷积层，采用经调整的第一卷积核权重对所述输入特征进行处理，得到所述第一解码特征；采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征，包括：根据所述样本音频特征对第二反卷积层的第二卷积核权重进行调整，得到经调整的第二卷积核权重；通过第二反卷积层，采用经调整的第二卷积核权重对所述拼接特征进行处理，得到所述第二解码特征。 5.根据权利要求1所述的方法，其中，所述根据所述第二唇形图像数据和所述判别结果，确定训练损失，包括：根据所述第二唇形图像数据和唇形监督数据，确定第一损失；根据所述判别结果，确定第二损失；根据所述第一损失和所述第二损失，确定训练损失。 6.根据权利要求5所述的方法，所述唇形驱动模型还包括生成式对抗GAN网络和VGG网络；所述方法还包括：分别将所述第二唇形图像数据输入所述GAN网络和所述VGG网络，得到第三唇形图像数据和第四唇形图像数据；根据所述第三唇形图像数据和唇形监督数据，确定第三损失；根据所述第四唇形图像数据和唇形监督数据，确定第四损失；根据所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定训练损失。 7.根据权利要求1所述的方法，还包括：对至少两个初始脸部图像数据进行对齐；从经对齐的初始脸部图像中剔除唇部区域，得到所述样本脸部图像数据。 8.一种唇形驱动方法，包括：获取目标脸部图像数据和目标语音数据；将所述目标脸部图像数据和所述目标语音数据，输入唇形驱动模型，得到在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型基于权利要求 1‑7中任一项所述的唇形驱动模型的训练方法训练得到。 9.一种唇形驱动模型的训练装置，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；所述装置包括：第一唇形图像确定模块，用于将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据；第二唇形图像确定模块，用于将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；判别结果确定模块，用于将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；训练损失确定模块，用于根据所述第二唇形图像数据和所述判别结果，确定训练损失；权　利　要　求　书 2/4 页 3 CN 115376211 A 3

专利 唇形驱动方法、唇形驱动模型的训练方法、装置及设备

专利唇形驱动方法、唇形驱动模型的训练方法、装置及设备