全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210023243.1 (22)申请日 2022.01.10 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 毕成 马泽君  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 代理人 贾会玲 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 13/00(2011.01) (54)发明名称 人脸关键点信息获取方法、 生 成人脸动画的 方法及装置 (57)摘要 本公开涉及一种人脸关键点信息获取方法、 生成人脸动画的方法及装置。 人脸关键点信息获 取方法包括: 获取对样本人脸同步录制的样本视 频和样本音频; 确定所述样本视频的每一视频帧 中的人脸关键点信息, 以得到关键点信息序列; 确定所述样 本音频的每一音 频帧的音频频谱, 以 得到音频频谱序列; 将所述关键点信息序列和所 述音频频谱序列作为神经网络模 型的输入, 并将 关键点标注信息序列作为所述神经网络模型的 目标输出, 对所述神经网络模型进行训练, 以得 到人脸关键点获取模型; 利用所述人脸关键点获 取模型获取人脸关键点信息。 通过本公开训练得 到的人脸关键点获取模型, 输出的人脸关键点准 确性高、 稳定性高。 权利要求书2页 说明书13页 附图3页 CN 114429658 A 2022.05.03 CN 114429658 A 1.一种人脸关键点信息获取 方法, 其特 征在于, 所述方法包括: 获取对样本人脸同步录制的样本 视频和样本音频; 确定所述样本视频的每一视频帧中的人脸关键点信息, 以得到关键点信息序列, 其中, 所述人脸关键点信息包括 不与发声联动的第一人脸关键点的信息; 确定所述样本音频的每一音频帧的音频 频谱, 以得到音频 频谱序列; 将所述关键点信 息序列和所述音频频谱序列作为神经网络模型的输入, 并将关键点标 注信息序列作为所述神经网络模型 的目标输出, 对所述神经网络模型进行训练, 以得到人 脸关键点获取模型, 其中, 所述关键点标注信息序列包括所述样本人脸对应于每一所述视 频帧的人脸关键点标注信息, 所述人脸关键点标注信息包括所述第一人脸关键点的标注信 息和与发声联动的第二人脸关键点的标注信息; 利用所述人脸关键点获取模型获取 人脸关键点信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述关键点信 息序列和所述音频频 谱序列作为神经网络模型的输入, 并将关键点标注信息序列作为所述神经网络模型的目标 输出, 对所述神经网络模型进行训练, 以得到人脸关键点获取模型, 包括: 对所述音频 频谱序列进行编码, 得到音频 频谱特征向量序列; 对所述关键点信息序列进行编码, 得到关键点信息特 征向量序列; 根据所述音频频谱特征向量序列和所述关键点信 息特征向量序列, 获取关键点预测信 息序列, 所述关键点预测信息序列包括所述样本人脸对应于每一所述视频帧的人脸关键点 预测信息, 所述人脸关键点预测信息包括所述第一人脸关键点的预测信息和所述第二人脸 关键点的预测信息; 根据所述关键点预测信 息序列和所述关键点标注信 息序列之间的差异, 对所述神经网 络模型进行训练, 以得到所述人脸关键点获取模型。 3.根据权利要求2所述的方法, 其特征在于, 所述神经网络模型包括音频频谱编码器、 人脸关键点编码器和解码器; 其中, 所述音频频谱编码器用于对所述音频频谱序列进行编码, 得到所述音频频谱特 征向量序列; 所述人脸关键点编码器用于对所述关键点信 息序列进行编码, 得到所述关键点信 息特 征向量序列; 所述解码器用于根据 所述音频频谱特征向量序列和所述关键点信 息特征向量序列, 获 取所述关键点预测信息序列。 4.根据权利要求3所述的方法, 其特征在于, 所述解码器用于根据 所述音频频谱特征向 量序列和所述关键点信息特征向量序列, 基于转置卷积的上采样方式, 获取所述关键点预 测信息序列。 5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述第一人脸关键点包括鼻梁 关键点、 脸颊边 缘关键点、 耳朵关键点中的至少一种。 6.一种生成人脸动画的方法, 其特 征在于, 所述方法包括: 对获取的目标音频进行 频谱转换, 以得到目标音频 频谱序列; 将所述目标音频频谱序列输入人脸关键点获取模型, 以得到与 所述目标音频对应的目 标人脸关键点信息序列, 其中, 所述人脸关键点 获取模型是根据权利要求 1‑5中任一项 所述权 利 要 求 书 1/2 页 2 CN 114429658 A 2的方法得到的; 根据所述目标人脸关键点信 息序列和目标人脸的基准人脸图像, 生成所述目标人脸的 动画。 7.一种人脸关键点信息获取装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取对样本人脸同步录制的样本 视频和样本音频; 第一确定模块, 用于确定所述样本视频的每一视频帧中的人脸关键点信息, 以得到关 键点信息序列, 其中, 所述人脸关键点信息包括 不与发声联动的第一人脸关键点的信息; 第二确定模块, 用于确定所述样本音频的每一音频帧的音频频谱, 以得到音频频谱序 列; 训练模块, 用于将所述关键点信息序列和所述音频频谱序列作为神经网络模型的输 入, 并将关键点标注信息序列作为所述神经网络模型 的目标输出, 对所述神经网络模型进 行训练, 以得到人脸关键点 获取模型, 其中, 所述关键点标注信息序列包括所述样本人脸对 应于每一所述视频帧的人脸关键点标注信息, 所述人脸关键点标注信息包括所述第一人脸 关键点的标注信息和与发声联动的第二人脸关键点的标注信息; 第二获取模块, 用于利用所述人脸关键点获取模型获取 人脸关键点信息 。 8.一种生成人脸动画的装置, 其特 征在于, 所述装置包括: 转换模块, 用于对获取的目标音频进行 频谱转换, 以得到目标音频 频谱序列; 第三确定模块, 用于将所述目标音频频谱序列输入人脸关键点获取模型, 以得到与所 述目标音频对应的目标人脸关键点信息序列, 其中, 所述人脸关键点获取模型是根据权利 要求1‑5中任一项所述的方法得到的; 驱动模块, 用于根据所述目标人脸关键点信息序列和目标人脸的基准人脸图像, 生成 所述目标 人脸的动画。 9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行 时实现权利要求1 ‑6中任一项所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有至少一个 计算机程序; 至少一个处理装置, 用于执行所述存储装置中的所述至少一个计算机程序, 以实现权 利要求1‑6中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114429658 A 3

.PDF文档 专利 人脸关键点信息获取方法、生成人脸动画的方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 人脸关键点信息获取方法、生成人脸动画的方法及装置 第 1 页 专利 人脸关键点信息获取方法、生成人脸动画的方法及装置 第 2 页 专利 人脸关键点信息获取方法、生成人脸动画的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:15:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。