全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210908621.4 (22)申请日 2022.07.29 (71)申请人 招商局金融科技有限公司 地址 518000 广东省深圳市福田区华 富街 道皇岗路5001号深业上城(南区)二期 35层、 36层 (72)发明人 张一帆 山金孝 李琦 叶颖琦  刘屹 孙猛 龙喜洋  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06F 40/30(2020.01) (54)发明名称 基于视频与文本的智能转换方法、 装置、 电 子设备及 介质 (57)摘要 本发明涉及人工智能领域, 揭露一种基于视 频与文本的智能转换方法, 包括: 获取训练视频 及其对应的视频文本, 提取训练视频中的训练图 片; 利用预构建文本视频转换模 型中的编码器对 训练图片和视频文本进行特征向量编码、 向量掩 码以及向量拼接, 得到图片 ‑文本拼接向量; 利用 预构建文本视频转换模型中的语义分析网络识 别图片‑文本拼接向量的预测图片和预测文本后 并解码, 得到预测视频和预测视频文本; 根据预 测视频和预测视频文本, 及训练视频和视频文 本, 计算预构建文本视频转换模型的模型损失, 以生成训练好的文本视频转换模 型, 实现对待转 换场景数据进行场景转换, 得到场景转换结果。 本发明可以提高视频与文本之间的场景转换效 率。 权利要求书3页 说明书12页 附图3页 CN 115205758 A 2022.10.18 CN 115205758 A 1.一种基于 视频与文本的智能转换 方法, 其特 征在于, 所述方法包括: 获取训练视频及其对应的视频文本, 并提取 所述训练视频中的训练图片; 利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码, 得 到图片特征向量, 及利用所述预构建文本视频转换模型中的文本编 码器对所述视频文本进 行特征向量编码, 得到文本特 征向量; 利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本 特征向量进行向量掩码, 并将向量掩码后的所述图片特征向量和所述文本特征向量进 行向 量拼接, 得到图片 ‑文本拼接向量; 利用所述预构建文本视频转换模型中的语义分析网络识别所述图片 ‑文本拼接向量的 预测图片和预测文本; 利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码, 得到预 测视频, 及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码, 得到预测视频文本; 根据所述预测视频和所述预测视频文本, 及所述训练视频及所述视频文本, 计算所述 预构建文本 视频转换模型中的模型损失; 在所述模型损 失大于预设损 失时, 更新所述预构建文本视频转换模型的模型参数, 并 返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的 步骤; 在所述模型损 失不大于所述预设损 失时, 得到训练好的文本视频转换模型, 并利用所 述训练好的文本 视频转换模型对待转换场景 数据进行场景转换, 得到场景转换 结果。 2.如权利要求1所述的基于视频与文本的智能转换方法, 其特征在于, 所述利用预构建 文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码, 得到图片特征向 量, 包括: 利用所述图片编码器中的位置编码层对所述训练图片进行位置向量编码, 得到位置编 码向量; 利用所述图片编码器中的自注意力模块计算所述位置编码向量中向量之间的权重值, 根据所述权 重值, 更新所述 位置编码向量的权 重信息, 得到 权重编码向量; 利用所述图片编码器中的前馈神经网络提取所述权重编码向量中的特征向量, 得到图 片特征向量。 3.如权利要求1所述的基于视频与文本的智能转换方法, 其特征在于, 所述将向量掩码 后的所述图片特征向量和所述文本特征向量进行向量拼接, 得到图片 ‑文本拼接向量, 包 括: 获取所述向量掩码后的所述图片特 征向量和所述文本特 征向量的序列对应关系; 根据所述序列对应关系, 将所述向量掩码后的所述图片特征向量和所述文本特征向量 进行拼接, 得到所述图片 ‑文本拼接向量。 4.如权利要求1所述的基于视频与文本的智能转换方法, 其特征在于, 所述利用所述预 构建文本视频转换模型中的语义分析网络识别所述图片 ‑文本拼接向量的预测图片和预测 文本, 包括: 利用所述语义分析网络中的分类层对所述图片 ‑文本拼接向量进行预测类别分类, 得权 利 要 求 书 1/3 页 2 CN 115205758 A 2到预测类别; 根据所述预测类别, 利用所述语义分析网络中的嵌入层对所述图片 ‑文本拼接向量进 行维度矩阵嵌入, 得到所述图片 ‑文本拼接向量的向量维度矩阵; 根据所述向量维度矩阵, 利用所述语义分析网络中的全连接层检测所述图片 ‑文本拼 接向量的预测图片和预测文本 。 5.如权利要求1所述的基于视频与文本的智能转换方法, 其特征在于, 所述利用所述预 构建文本 视频转换模型中的图片解码器对所述预测图片进行解码, 得到预测视频, 包括: 利用所述片解码器中的注意力模块计算所述预测图片的信息序列, 得到图片信息序 列; 利用所述解码器中的全连接神经网络输出所述图片信 息序列后进行图片合并, 得到预 测视频。 6.如权利要求1至5中任意一项所述的基于视频与文本的智能转换方法, 其特征在于, 所述根据所述预测视频和所述预测视频文本, 及所述训练视频及所述视频文本, 计算所述 预构建文本 视频转换模型中的模型损失, 包括: 根据所述预测视频和所述训练视频, 计算所述预构建文本视频转换模型中的视频损 失; 根据所述预测视频文本和所述视频文本, 计算所述预构建文本视频转换模型中的文本 损失; 根据所述视频损失和所述文本损失, 计算所述预构建文本视频转换模型中的模型损 失。 7.如权利要求6所述的基于视频与文本的智能转换方法, 其特征在于, 所述根据 所述预 测视频和所述训练视频, 计算所述预构建文本 视频转换模型中的视频损失, 包括: 利用下述公式计算所述预构建文本 视频转换模型中的视频损失: L1=mglogmp+(1‑mg)log(1‑mp) 其中, L1表示视频损失, mg表示预测视频, mp表示训练视频。 8.一种基于 视频与文本的智能转换装置, 其特 征在于, 所述装置包括: 训练数据获取模块, 用于获取训练视频及其对应的视频文本, 并提取所述训练视频中 的训练图片; 特征向量编码模块, 用于利用预构建文本视频转换模型中的图片编码器对所述训练图 片进行特征向量编码, 得到图片特征向量, 及利用所述预构建文本视频转换模型中的文本 编码器对所述视频文本进行 特征向量编码, 得到文本特 征向量; 特征向量拼接模块, 用于利用所述预构建文本视频转换模型中的掩码层 分别对所述图 片特征向量和所述文本特征向量进行向量掩码, 并将向量掩码后的所述图片特征向量和所 述文本特 征向量进行向量 拼接, 得到图片 ‑文本拼接向量; 向量语义分析模块, 用于利用所述预构建文本视频转换模型中的语义分析网络识别所 述图片‑文本拼接向量的预测图片和预测文本; 数据解码模块, 用于利用所述预构建文本视频转换模型中的图片解码器对所述预测图 片进行解码, 得到预测视频, 及利用所述预构建文本视频转换模型中的文本解码器对所述 预测文本进行解码, 得到预测视频文本;权 利 要 求 书 2/3 页 3 CN 115205758 A 3

PDF文档 专利 基于视频与文本的智能转换方法、装置、电子设备及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视频与文本的智能转换方法、装置、电子设备及介质 第 1 页 专利 基于视频与文本的智能转换方法、装置、电子设备及介质 第 2 页 专利 基于视频与文本的智能转换方法、装置、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。