全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210200063.6 (22)申请日 2022.03.02 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 李传俊 许有疆 马连洋  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G06V 10/778(2022.01) G06V 10/774(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 视频处理方法、 装置、 设备、 存储介质及程序 产品 (57)摘要 本申请提供了一种视频处理方法、 装置、 设 备、 存储介质及程序产品, 涉及机器学习技术领 域。 该方法包括: 获取第一视频样本, 以及基于第 一任务对第一视频样本标注的第一标注信息; 基 于第一模型中的特征提取网络提取第一视频样 本的第一样 本特征; 基于第一模 型中的第一任务 处理网络和第二任务处理网络分别对第一样本 特征进行处理, 得到第一任务的第一预测结果以 及第二任务的第二预测结果; 基于第一标注信息 以及第一预测结果, 通过有监督的方式对第一模 型进行参数更新; 基于第一视频样 本以及第二预 测结果, 通过自监督的方式对第一模 型进行参数 更新。 通过上述方法, 提高了模型精度和泛化 性。 权利要求书4页 说明书24页 附图11页 CN 114565811 A 2022.05.31 CN 114565811 A 1.一种视频处 理方法, 其特 征在于, 所述方法包括: 获取第一视频样本, 以及所述第一视频样本的第一标注信息; 所述第一标注信息是基 于第一任务对所述第一视频样本标注获得的; 基于第一模型中的特征提取网络对所述第 一视频样本进行处理, 得到所述第 一视频样 本的第一样本特 征; 基于所述第 一模型中的第 一任务处理网络对所述第 一样本特征进行处理, 得到所述第 一任务的第一预测结果; 基于所述第 一模型中的第 二任务处理网络对所述第 一样本特征进行处理, 得到第 二任 务的第二预测结果; 基于所述第 一视频样本, 所述第 一标注信 息, 所述第 一预测结果, 以及所述第 二预测结 果, 对所述第一模型进 行参数更新, 获得第一视频处理模型; 所述第一标注信息以及所述第 一预测结果用于通过有监督的方式对所述第一模型进 行参数更新; 所述第一视频样本以及 所述第二预测结果用于通过自监 督的方式对所述第一模型进行参数 更新; 其中, 所述第 一视频处理模型用于对输入的视频执行所述第 一任务以及所述第 二任务 中的至少一种。 2.根据权利要求1所述的方法, 其特征在于, 所述特征提取网络包括特征提取子网络以 及特征融合子网络; 所述基于第 一模型中的特征提取网络对所述第 一视频样本进行处理, 得到所述第 一视 频样本的第一样本特 征, 包括: 基于所述特征提取子网络对所述第 一视频样本进行特征提取, 获得所述第 一视频样本 的至少两个维度的样本特 征; 基于所述特征融合子网络对至少两个维度的所述样本特征进行融合, 获得所述第 一视 频样本的所述第一样本特 征。 3.根据权利要求2所述的方法, 其特征在于, 在基于第 一模型中的特征提取网络对所述 第一视频样本进行处 理, 得到所述第一视频样本的第一样本特 征之前, 所述方法还 包括: 对所述第一视频样本进行预处理, 获得所述第一视频样本的至少两个维度的视频元 素; 所述基于所述特征提取子网络对所述第 一视频样本进行特征提取, 获得所述第 一视频 样本的至少两个维度的样本特 征, 包括: 基于所述特征提取子网络对至少两个维度的所述视频元素进行特征提取, 获得所述第 一视频样本的至少两个维度的样本特 征。 4.根据权利要求3所述的方法, 其特征在于, 至少两个维度的所述视频元素包括: 视频 帧以及视频文本; 所述视频文本包含视频标题文本以及视频内容文本中的至少一种; 所述 视频内容文本是指输入的视频中的语音信息所对应的文本 。 5.根据权利要求4所述的方法, 其特征在于, 所述第 二任务处理网络包括第 一处理网络 以及第二处理网络中的至少一种; 所述第二预测结果包括对应于所述第一处理网络的预测 结果以及对应于所述第二处理网络的预测结果中的至少一种; 所述第一处理网络的预测结 果对应于视频帧维度的预测结果; 所述第二处理网络的预测结果对应于视频文本维度的预 测结果。权 利 要 求 书 1/4 页 2 CN 114565811 A 26.根据权利要求5所述的方法, 其特征在于, 响应于所述第 二任务处理网络包括所述第 一处理网络, 在基于第一模型中的特征提取网络对所述第一视频样本进行处理, 得到所述 第一视频样本的第一样本特 征之前, 所述方法还 包括: 对所述第一视频样本的所述视频帧进行第一掩膜处 理; 所述基于所述第一模型中的第 二任务处理网络对所述第 一样本特征进行处理, 得到第 二任务的第二预测结果, 包括: 基于所述第 二任务处理网络对所述第 一样本特征进行处理, 获得包括预测视频帧的所 述第二预测结果; 所述预测视频帧包括对经过所述第一掩膜处理后, 所述第一视频样本缺 失的所述视频帧进行恢复得到的视频帧。 7.根据权利要求5所述的方法, 其特征在于, 响应于所述第 二任务处理网络包括所述第 二处理网络, 在基于第一模型中的特征提取网络对所述第一视频样本进行处理, 得到所述 第一视频样本的第一样本特 征之前, 所述方法还 包括: 对所述第一视频样本的所述视频文本进行第二掩膜处 理; 所述基于所述第一模型中的第 二任务处理网络对所述第 一样本特征进行处理, 得到第 二任务的第二预测结果, 包括: 基于所述第 二任务处理网络对所述第 一样本特征进行处理, 获得包括预测文本的所述 第二预测结果; 所述预测文本包括对经过所述第二掩膜处理后, 所述第一视频样本缺失的 所述视频文本进行恢复得到的文本 。 8.根据权利要求2所述的方法, 其特征在于, 所述基于所述第 一模型中的第 一任务处理 网络对所述第一样本特 征进行处 理, 得到所述第一任务的第一预测结果, 包括: 基于所述第一任务处理网络分别对至少两个维度的所述样本特征以及所述第一样本 特征进行处理, 获得所述第一预测结果; 所述第一预测结果中包含至少 两个维度的所述视 频特征分别对应的预测结果, 以及所述第一样本特 征对应的预测结果。 9.根据权利要求2所述的方法, 其特征在于, 所述基于所述特征融合子网络对至少两个 维度的所述样本特 征进行融合, 获得 所述第一视频样本的所述第一样本特 征, 包括: 对至少两个维度的所述样本特 征进行拼接, 获得样本拼接特 征; 基于所述特征融合子网络, 对所述样本拼接特征进行处理, 获得所述第一视频样本的 所述第一样本特 征。 10.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一视频样本, 所述第 一标 注信息, 所述第一预测结果, 以及所述第二预测结果, 对所述第一模型进行参数更新, 获得 第一视频处 理模型, 包括: 基于所述第一预测结果与所述第一标注信息计算第一损失函数的函数值; 基于所述第二预测结果与所述第一视频样本计算第二损失函数的函数值; 基于所述第 一损失函数的函数值以及第 二损失函数的函数值, 对所述第 一模型进行参 数更新, 获得 所述第一视频处 理模型。 11.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 构建第二模型; 所述第二模型中包含训练完成后的所述特征提取网络, 以及第三任务 处理网络; 获取第二视频样本, 以及所述第二视频样本的第二标注信息; 所述第二标注信息是基权 利 要 求 书 2/4 页 3 CN 114565811 A 3

.PDF文档 专利 视频处理方法、装置、设备、存储介质及程序产品

文档预览
中文文档 40 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频处理方法、装置、设备、存储介质及程序产品 第 1 页 专利 视频处理方法、装置、设备、存储介质及程序产品 第 2 页 专利 视频处理方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。