(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211296864.3
(22)申请日 2022.10.21
(71)申请人 小哆智能科技 (北京) 有限公司
地址 100089 北京市海淀区西北旺东路10
号院东区23号楼三层346室
(72)发明人 余国军
(74)专利代理 机构 北京华清迪源知识产权代理
有限公司 1 1577
专利代理师 郑兴旺
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 20/40(2022.01)
G06V 10/75(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 15/25(2013.01)
(54)发明名称
虚拟主播视频生成方法、 装置、 电子设备及
存储介质
(57)摘要
本申请公开了一种虚拟主播视频生成方法、
装置、 电子设备及存储介质。 该方法包括首先获
取待合成的目标图像视频; 采集2D真人照片, 并
获取2D真人照片相关信息, 并根据2D真人照片相
关信息整理出人脸图像数据和唇音特征数据; 将
人脸图像数据和唇音特征数据以及目标图像视
频输入到预先训练完成的生成对抗网络进行合
成处理, 得到合成图像视频。 本方法通过提取音
频的语言学特征以及韵律特性, 从而增强唇音同
步性, 并通过生成对抗网络进行合成, 从而生成
趋于真实的虚拟主播人脸, 对产品图像视频再进
行合成处理, 让用户达到在观看图像视频时, 具
有相对真实的虚拟主播体验效果。
权利要求书2页 说明书8页 附图3页
CN 115497150 A
2022.12.20
CN 115497150 A
1.一种虚拟主播视频生成方法,其特 征在于, 所述方法包括:
获取待合成的目标图像视频; 其中, 所述目标图像视频包括真人图像视频和虚拟人物
图像视频;
采集2D真人照片, 并获取所述2D真人照片相 关信息, 并根据所述2D真人照片相 关信息
整理出人脸图像数据和唇音特 征数据;
将所述人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成
对抗网络进行合成处 理, 得到合成图像视频。
2.根据权利要求1所述的方法, 其特征在于, 所述2D真人照片相关信 息至少包括照片的
人脸数据和照片真人本身的音频信息 。
3.根据权利要求1所述的方法, 其特征在于, 根据 所述2D真人照片相关信息整理出人脸
图像数据, 包括:
把预测的每一帧关键点序列中连续的关键点用线段相连并渲染成不同的颜色, 从而得
到图像的特 征;
将图像的特 征和原图在通道维度上进行 连接, 从而得到特 征图;
通过encoder‑decoder网络对该 特征图生成每一帧真人图像。
4.根据权利要求3所述的方法, 其特征在于, 所述encoder ‑decoder网络中encoder的结
构为: 由6层CNN组成, 每层CNN跟随两个残差块; encoder的输出直接输入到decoder中,
decoder与encoder具有镜像结构, 且 对于按顺序的两层CN N之间, 都会 存在短路连接 。
5.根据权利要求1所述的方法, 其特征在于, 根据 所述2D真人照片相关信息整理出唇音
特征数据, 包括:
将2D真人照片相关信息中的音频片段进行content embedding, 并输入到LSTM网络中
得到c~t;
将所述音频片段进行speaker identity embedding得到s向量;
s向量经过MLP处理后与c~t进行连接, 并与预设时间段内的相同结果进行连接, 再输
入到self ‑attention block中, 得到预设时间段内的特 征;
与2D真人照片的静态关键点一同经过MLP处理进行映射, 得到关键点的变化, 从而得到
关键点预测进行微调后的结果, 并将微调后的结果作为唇音特 征数据。
6.根据权利要求1所述的方法, 其特征在于, 在将所述人脸图像数据和唇音特征数据以
及目标图像视频输入到预 先训练完成的生成对抗网络进行合成处 理之前, 包括:
需要选用同一个人的不同言辞对生成对抗网络进行内容特征的提取训练; 通过GAN网
络完成头部动作和面部动态表情的匹配训练; 其中, 图像生成训练是通过成对的视频帧进
行训练, 并在高分辨 率的视频 上进行微调, 使用数据集 为VoxCeleb2。
7.根据权利要求6所述的方法, 其特征在于, 所述生成对抗网络中的鉴别器网络具体
为:
rt=Attnd(yt,c~t,s)
其中, yt表示预测的每一帧关键点序列中连续关键点, c~t表示将音频片段进行
content embedding并输入到LSTM网络所得到的结果, s表示音频片段进行speaker
identity embedding的结果, A ttnd表示注意力机制的网络层, rt表示鉴别器输出 结果。
8.一种虚拟主播视频生成装置, 其特 征在于, 所述装置包括:权 利 要 求 书 1/2 页
2
CN 115497150 A
2获取模块, 用于获取待合成的目标图像视频; 其中, 所述目标图像视频包括真人图像视
频和虚拟人物图像视频;
处理模块, 用于采集2D 真人照片, 并获取所述2D真人照片相关信息, 并根据所述2D 真人
照片相关信息整理出 人脸图像数据和唇音特 征数据;
合成模块, 用于将所述人脸图像数据和唇音特征数据以及目标图像视频输入到预先训
练完成的生成对抗网络进行合成处 理, 得到合成图像视频。
9.一种电子设备, 其特征在于, 包括存储器和 处理器, 所述存储器存储有计算机程序,
所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的虚拟主播视频生成
方法。
10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序
被处理器执行时实现如权利要求1至7任一所述的虚拟主播视频生成方法。权 利 要 求 书 2/2 页
3
CN 115497150 A
3
专利 虚拟主播视频生成方法、装置、电子设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:22上传分享