专利 虚拟主播视频生成方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211296864.3 (22)申请日 2022.10.21 (71)申请人小哆智能科技（北京）有限公司地址 100089 北京市海淀区西北旺东路10 号院东区23号楼三层346室 (72)发明人余国军　 (74)专利代理机构北京华清迪源知识产权代理有限公司 1 1577 专利代理师郑兴旺 (51)Int.Cl. G06V 40/16(2022.01) G06V 20/40(2022.01) G06V 10/75(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 15/25(2013.01) (54)发明名称虚拟主播视频生成方法、装置、电子设备及存储介质 (57)摘要本申请公开了一种虚拟主播视频生成方法、装置、电子设备及存储介质。该方法包括首先获取待合成的目标图像视频；采集2D真人照片，并获取2D真人照片相关信息，并根据2D真人照片相关信息整理出人脸图像数据和唇音特征数据；将人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理，得到合成图像视频。本方法通过提取音频的语言学特征以及韵律特性，从而增强唇音同步性，并通过生成对抗网络进行合成，从而生成趋于真实的虚拟主播人脸，对产品图像视频再进行合成处理，让用户达到在观看图像视频时，具有相对真实的虚拟主播体验效果。权利要求书2页说明书8页附图3页 CN 115497150 A 2022.12.20 CN 115497150 A 1.一种虚拟主播视频生成方法,其特征在于，所述方法包括：获取待合成的目标图像视频；其中，所述目标图像视频包括真人图像视频和虚拟人物图像视频；采集2D真人照片，并获取所述2D真人照片相关信息，并根据所述2D真人照片相关信息整理出人脸图像数据和唇音特征数据；将所述人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理，得到合成图像视频。 2.根据权利要求1所述的方法，其特征在于，所述2D真人照片相关信息至少包括照片的人脸数据和照片真人本身的音频信息。 3.根据权利要求1所述的方法，其特征在于，根据所述2D真人照片相关信息整理出人脸图像数据，包括：把预测的每一帧关键点序列中连续的关键点用线段相连并渲染成不同的颜色，从而得到图像的特征；将图像的特征和原图在通道维度上进行连接，从而得到特征图；通过encoder‑decoder网络对该特征图生成每一帧真人图像。 4.根据权利要求3所述的方法，其特征在于，所述encoder ‑decoder网络中encoder的结构为：由6层CNN组成，每层CNN跟随两个残差块； encoder的输出直接输入到decoder中， decoder与encoder具有镜像结构，且对于按顺序的两层CN N之间，都会存在短路连接。 5.根据权利要求1所述的方法，其特征在于，根据所述2D真人照片相关信息整理出唇音特征数据，包括：将2D真人照片相关信息中的音频片段进行content embedding，并输入到LSTM网络中得到c～t；将所述音频片段进行speaker identity embedding得到s向量； s向量经过MLP处理后与c～t进行连接，并与预设时间段内的相同结果进行连接，再输入到self ‑attention block中，得到预设时间段内的特征；与2D真人照片的静态关键点一同经过MLP处理进行映射，得到关键点的变化，从而得到关键点预测进行微调后的结果，并将微调后的结果作为唇音特征数据。 6.根据权利要求1所述的方法，其特征在于，在将所述人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理之前，包括：需要选用同一个人的不同言辞对生成对抗网络进行内容特征的提取训练；通过GAN网络完成头部动作和面部动态表情的匹配训练；其中，图像生成训练是通过成对的视频帧进行训练，并在高分辨率的视频上进行微调，使用数据集为VoxCeleb2。 7.根据权利要求6所述的方法，其特征在于，所述生成对抗网络中的鉴别器网络具体为： rt＝Attnd(yt,c～t,s) 其中， yt表示预测的每一帧关键点序列中连续关键点， c～t表示将音频片段进行 content embedding并输入到LSTM网络所得到的结果， s表示音频片段进行speaker identity embedding的结果， A ttnd表示注意力机制的网络层， rt表示鉴别器输出结果。 8.一种虚拟主播视频生成装置，其特征在于，所述装置包括：权　利　要　求　书 1/2 页 2 CN 115497150 A 2获取模块，用于获取待合成的目标图像视频；其中，所述目标图像视频包括真人图像视频和虚拟人物图像视频；处理模块，用于采集2D 真人照片，并获取所述2D真人照片相关信息，并根据所述2D 真人照片相关信息整理出人脸图像数据和唇音特征数据；合成模块，用于将所述人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理，得到合成图像视频。 9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的虚拟主播视频生成方法。 10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的虚拟主播视频生成方法。权　利　要　求　书 2/2 页 3 CN 115497150 A 3

专利 虚拟主播视频生成方法、装置、电子设备及存储介质

专利虚拟主播视频生成方法、装置、电子设备及存储介质