全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210261387.0 (22)申请日 2022.03.16 (71)申请人 北京达佳互联信息技 术有限公司 地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人 何刚 徐宁 戴宇荣 闻兴 于冰  (74)专利代理 机构 北京铭硕知识产权代理有限 公司 11286 专利代理师 王艳茹 苏银虹 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 视频增强模 型的训练方法及装置、 视频增强 方法及装置 (57)摘要 本公开关于一种视频增强模型的训练方法 及装置、 视频增强方法及装置。 视频增强模型的 训练方法包括: 获取训练样 本, 其中, 训练样本包 括训练视频、 训练视频对应的原始未压缩视频和 原始未压缩视频第一次编码后的初始编码视频; 将训练视频输入到视频增强模型, 得到第一预估 增强视频和第二预估增强视频, 其中, 第一预估 增强视频是由视频增强模型输出的增强到原始 未压缩视频的质量的预估增强视频, 第二预估增 强视频是由视频增强模型中的辅助监督注意力 层输出的增强到初始编码视频的质量的预估增 强视频; 基于原始未压缩视频、 初始编码视频、 第 一预估增强视频和第二预估增强视频确定损失; 基于损失调整视频增强模型的参数, 对视频增强 模型进行训练。 权利要求书3页 说明书15页 附图7页 CN 114627417 A 2022.06.14 CN 114627417 A 1.一种视频增强模型的训练方法, 其特征在于, 所述视频增强模型包括辅助监督注意 力层, 所述训练方法包括: 获取训练样本, 其中, 所述训练样本包括训练视频、 所述训练视频对应的原始未压缩视 频和所述原 始未压缩视频第一次编码后的初始编码视频; 将所述训练视频输入到所述视频增强模型, 得到第 一预估增强视频和第 二预估增强视 频, 其中, 所述第一预估增强视频是 由所述视频增强模型输出的增强到所述原始未压缩视 频的质量的预估增强视频, 所述第二预估增强视频是由所述视频增强模型中的辅助监督注 意力层输出的增强到所述初始编码视频的质量的预估增强视频; 基于所述原始未压缩视频、 所述初始编码视频、 所述第一预估增强视频和所述第二预 估增强视频确定损失; 基于所述损失调整所述视频增强模型的参数, 对所述视频增强模型进行训练。 2.如权利要求1所述的训练方法, 其特征在于, 所述将所述训练视频输入到所述视频增 强模型, 得到第一预估增强视频和第二预估增强视频, 包括: 针对所述训练视频的每个图像帧, 将当前图像帧和与 所述当前图像帧相邻的预定个数 的图像帧输入到所述视频增强模型, 得到所述当前图像帧的第一预估增强图像和 第二预估 增强图像; 基于所述训练视频的所有图像帧的第一预估增强图像, 得到所述第一预估增强视频; 基于所述训练视频的所有图像帧的第二预估增强图像, 得到所述第二预估增强视频。 3.如权利要求2所述的训练方法, 其特征在于, 所述视频增强模型还包括对齐层、 融合 层和全局监 督重建层, 所述将当前图像帧和与所述当前图像帧相邻的预定个数的图像帧输入到所述视频增 强模型, 得到所述当前图像帧的第一预估增强图像和第二预估增强图像, 包括: 将所述当前图像帧和与所述当前图像帧相邻的预定个数的图像帧输入到所述对齐层, 得到预估第一特征, 其中, 所述预估第一特征是所述当前图像 帧和与所述当前图像 帧相邻 的预定个数的图像帧经 过对齐处 理后的特 征; 将所述预估第 一特征输入到所述融合层, 得到预估第 二特征, 其中, 所述预估第 二特征 是所述预估第一特 征中每个图像帧的特 征经过融合处 理后的特 征; 将所述预估第 二特征输入到所述辅助监督注意力层, 得到预估第 三特征和所述第 二预 估增强图像, 其中, 所述预估第三特征是所述预估第二特征基于所述第二预估增强 图像进 行优化后的特 征; 将所述预估第三特 征输入到所述全局监 督重建层, 得到所述第一预估增强图像。 4.如权利要求3所述的训练方法, 其特征在于, 所述将所述预估第 二特征输入到所述辅 助监督注意力层, 得到预估第三特 征和所述第二预估增强图像, 包括: 将所述预估第 二特征输入到所述辅助监督注意力层中的混合空洞重建算子, 得到预估 高频特征, 所述预估高频 特征是基于所述预估第二特 征中边缘纹理信息得到的; 基于所述预估高频 特征和所述当前图像帧, 得到所述第二预估增强图像; 将所述预估第二特征和所述第二预估增强图像分别输入到所述辅助监督注意力层中 的卷积层, 得到卷积处 理后的预估第二特 征和卷积处 理后的第二预估增强图像; 基于卷积处理后的预估第 二特征和卷积处理后的第 二预估增强图像, 得到所述预估第权 利 要 求 书 1/3 页 2 CN 114627417 A 2三特征。 5.一种视频增强方法, 其特 征在于, 包括: 获取待处 理视频; 将所述待处理视频输入到视频增强模型, 得到第一增强视频, 所述第一增强视频是由 所述视频增强模型输出的增强到所述待处理视频对应的原始未压缩视频 的质量的增强视 频; 其中, 所述视频增强模型是基于第一预估增强视频和第二预估增强视频训练得到的, 所述第一预估增强视频是所述视频增强模型接收到训练视频后, 输出的增强到所述原始未 压缩视频的质量的预估增强视频, 所述第二预估增强视频是所述视频增强模型接收到训练 视频后, 所述视频增强模型中的辅助监督注意力层输出的增强到初始编码视频的质量的预 估增强视频, 所述初始编码视频 是所述原始未压缩视频第一次编码后的视频。 6.一种视频增强模型的训练装置, 其特征在于, 所述视频增强模型包括辅助监督注意 力层, 所述训练装置包括: 样本获取单元, 被配置为获取训练样本, 其中, 所述训练样本包括训练视频、 所述训练 视频对应的原 始未压缩视频和所述原 始未压缩视频第一次编码后的初始编码视频; 增强视频获取单元, 被配置为将所述训练视频输入到所述视频增强模型, 得到第一预 估增强视频和第二预估增强视频, 其中, 所述第一预估增强视频是 由所述视频增强模型输 出的增强到所述原始未压缩视频的质量的预估增强视频, 所述第二预估增强视频是由所述 视频增强模型中的辅助监督注意力层输出的增强到所述初始编码视频 的质量的预估增强 视频; 损失确定单元, 被配置为基于所述原始未压缩视频、 所述初始编码视频、 所述第 一预估 增强视频和所述第二预估增强视频确定损失; 训练单元, 被配置为基于所述损 失调整所述视频增强模型的参数, 对所述视频增强模 型进行训练。 7.一种视频增强装置, 其特 征在于, 包括: 视频获取 单元, 被配置为获取待处 理视频; 增强视频获取单元, 被配置为将所述待处理视频输入到视频增强模型, 得到所述待处 理视频的第一增强视频, 所述第一增强视频是由所述视频增强模型输出的增强到所述待处 理视频对应的原 始未压缩视频的质量的增强视频; 其中, 所述视频增强模型是基于第一预估增强视频和第二预估增强视频训练得到的, 所述第一预估增强视频是所述视频增强模型接收到训练视频后, 输出的增强到所述原始未 压缩视频的质量的预估增强视频, 所述第二预估增强视频是所述视频增强模型接收到训练 视频后, 所述视频增强模型中的辅助监督注意力层输出的增强到初始编码视频的质量的预 估增强视频, 所述初始编码视频 是所述原始未压缩视频第一次编码后的视频。 8.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至4中任一项所述的视 频增强模型的训练方法和/或权利要求5所述的视频增强方法。权 利 要 求 书 2/3 页 3 CN 114627417 A 3

.PDF文档 专利 视频增强模型的训练方法及装置、视频增强方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频增强模型的训练方法及装置、视频增强方法及装置 第 1 页 专利 视频增强模型的训练方法及装置、视频增强方法及装置 第 2 页 专利 视频增强模型的训练方法及装置、视频增强方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。