专利人脸关键点信息获取方法、生成人脸动画的方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210023243.1 (22)申请日 2022.01.10 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人毕成　马泽君　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人贾会玲 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 13/00(2011.01) (54)发明名称人脸关键点信息获取方法、生成人脸动画的方法及装置 (57)摘要本公开涉及一种人脸关键点信息获取方法、生成人脸动画的方法及装置。人脸关键点信息获取方法包括：获取对样本人脸同步录制的样本视频和样本音频；确定所述样本视频的每一视频帧中的人脸关键点信息，以得到关键点信息序列；确定所述样本音频的每一音频帧的音频频谱，以得到音频频谱序列；将所述关键点信息序列和所述音频频谱序列作为神经网络模型的输入，并将关键点标注信息序列作为所述神经网络模型的目标输出，对所述神经网络模型进行训练，以得到人脸关键点获取模型；利用所述人脸关键点获取模型获取人脸关键点信息。通过本公开训练得到的人脸关键点获取模型，输出的人脸关键点准确性高、稳定性高。权利要求书2页说明书13页附图3页 CN 114429658 A 2022.05.03 CN 114429658 A 1.一种人脸关键点信息获取方法，其特征在于，所述方法包括：获取对样本人脸同步录制的样本视频和样本音频；确定所述样本视频的每一视频帧中的人脸关键点信息，以得到关键点信息序列，其中，所述人脸关键点信息包括不与发声联动的第一人脸关键点的信息；确定所述样本音频的每一音频帧的音频频谱，以得到音频频谱序列；将所述关键点信息序列和所述音频频谱序列作为神经网络模型的输入，并将关键点标注信息序列作为所述神经网络模型的目标输出，对所述神经网络模型进行训练，以得到人脸关键点获取模型，其中，所述关键点标注信息序列包括所述样本人脸对应于每一所述视频帧的人脸关键点标注信息，所述人脸关键点标注信息包括所述第一人脸关键点的标注信息和与发声联动的第二人脸关键点的标注信息；利用所述人脸关键点获取模型获取人脸关键点信息。 2.根据权利要求1所述的方法，其特征在于，所述将所述关键点信息序列和所述音频频谱序列作为神经网络模型的输入，并将关键点标注信息序列作为所述神经网络模型的目标输出，对所述神经网络模型进行训练，以得到人脸关键点获取模型，包括：对所述音频频谱序列进行编码，得到音频频谱特征向量序列；对所述关键点信息序列进行编码，得到关键点信息特征向量序列；根据所述音频频谱特征向量序列和所述关键点信息特征向量序列，获取关键点预测信息序列，所述关键点预测信息序列包括所述样本人脸对应于每一所述视频帧的人脸关键点预测信息，所述人脸关键点预测信息包括所述第一人脸关键点的预测信息和所述第二人脸关键点的预测信息；根据所述关键点预测信息序列和所述关键点标注信息序列之间的差异，对所述神经网络模型进行训练，以得到所述人脸关键点获取模型。 3.根据权利要求2所述的方法，其特征在于，所述神经网络模型包括音频频谱编码器、人脸关键点编码器和解码器；其中，所述音频频谱编码器用于对所述音频频谱序列进行编码，得到所述音频频谱特征向量序列；所述人脸关键点编码器用于对所述关键点信息序列进行编码，得到所述关键点信息特征向量序列；所述解码器用于根据所述音频频谱特征向量序列和所述关键点信息特征向量序列，获取所述关键点预测信息序列。 4.根据权利要求3所述的方法，其特征在于，所述解码器用于根据所述音频频谱特征向量序列和所述关键点信息特征向量序列，基于转置卷积的上采样方式，获取所述关键点预测信息序列。 5.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述第一人脸关键点包括鼻梁关键点、脸颊边缘关键点、耳朵关键点中的至少一种。 6.一种生成人脸动画的方法，其特征在于，所述方法包括：对获取的目标音频进行频谱转换，以得到目标音频频谱序列；将所述目标音频频谱序列输入人脸关键点获取模型，以得到与所述目标音频对应的目标人脸关键点信息序列，其中，所述人脸关键点获取模型是根据权利要求 1‑5中任一项所述权　利　要　求　书 1/2 页 2 CN 114429658 A 2的方法得到的；根据所述目标人脸关键点信息序列和目标人脸的基准人脸图像，生成所述目标人脸的动画。 7.一种人脸关键点信息获取装置，其特征在于，所述装置包括：第一获取模块，用于获取对样本人脸同步录制的样本视频和样本音频；第一确定模块，用于确定所述样本视频的每一视频帧中的人脸关键点信息，以得到关键点信息序列，其中，所述人脸关键点信息包括不与发声联动的第一人脸关键点的信息；第二确定模块，用于确定所述样本音频的每一音频帧的音频频谱，以得到音频频谱序列；训练模块，用于将所述关键点信息序列和所述音频频谱序列作为神经网络模型的输入，并将关键点标注信息序列作为所述神经网络模型的目标输出，对所述神经网络模型进行训练，以得到人脸关键点获取模型，其中，所述关键点标注信息序列包括所述样本人脸对应于每一所述视频帧的人脸关键点标注信息，所述人脸关键点标注信息包括所述第一人脸关键点的标注信息和与发声联动的第二人脸关键点的标注信息；第二获取模块，用于利用所述人脸关键点获取模型获取人脸关键点信息。 8.一种生成人脸动画的装置，其特征在于，所述装置包括：转换模块，用于对获取的目标音频进行频谱转换，以得到目标音频频谱序列；第三确定模块，用于将所述目标音频频谱序列输入人脸关键点获取模型，以得到与所述目标音频对应的目标人脸关键点信息序列，其中，所述人脸关键点获取模型是根据权利要求1‑5中任一项所述的方法得到的；驱动模块，用于根据所述目标人脸关键点信息序列和目标人脸的基准人脸图像，生成所述目标人脸的动画。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1 ‑6中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有至少一个计算机程序；至少一个处理装置，用于执行所述存储装置中的所述至少一个计算机程序，以实现权利要求1‑6中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114429658 A 3

专利 人脸关键点信息获取方法、生成人脸动画的方法及装置

专利人脸关键点信息获取方法、生成人脸动画的方法及装置