全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111678492.6 (22)申请日 2021.12.31 (71)申请人 中国科学院软件研究所 地址 100000 北京市海淀区中关村南四街 4 号 申请人 贵阳信息技 术研究院 (72)发明人 闫碧莹 陈峰 许晶航 曹娅琪  张思卿  (74)专利代理 机构 贵州派腾知识产权代理有限 公司 521 14 代理人 唐斌 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 10/04(2012.01) (54)发明名称 一种光流形变分别编码的视频预测方法 (57)摘要 本发明公开了一种光流形变分别编码的视 频预测方法, 将视频信息流按帧分离为位置和形 状两条编码路径, 对位置流特征应用神经光流估 计方法以提取空间相关运动, 对 形状流特征进行 差分运算以捕获细粒度的空间形变, 最后将它们 组合解码以生成下一帧的像素级预测。 本发明所 提出的将位移和形变分开建模的方法, 可以降低 预测的不确定性, 减缓图像模糊的趋势。 与当前 最先进的基于雷达回波序列的临近降雨预测方 法相比, 所提出的模型表现更好, 特别是对强降 雨和相对较 长时间步的预测。 权利要求书2页 说明书6页 附图2页 CN 114429601 A 2022.05.03 CN 114429601 A 1.一种光流形变分别编码的视频预测方法, 其特征在于: 将视频信息流按帧分离为位 置和形状两条编码路径, 对位置流特征应用神经光流估计方法以提取空间相关运动, 对形 状流特征进行差分运算以捕获细粒度的空间形变, 最后 将它们组合解码以生成下一帧的像 素级预测。 2.根据权利要求1所述光流形变分别编码的视频预测方法, 其特征在于: 建立光流形变 神经网络, 包括位置编码 器, 形状编 码器, 光流编 码器, 形变编码 器以及组合解码 器, 每帧图 片首先分别输入位置编码器和形状编码器, 位置编码器的输出输入光流编码器, 光流编码 器和形状编 码器的输出输入形变编 码器, 形变编码器和形状编 码器的输出输入组合解码 器 得到下一帧的预测图像。 3.根据权利要求2所述光流形变分别编码的视频预测方法, 其特征在于: 位置编码器和 形状编码器分别从单个帧中提取有意义的位置特征和形状特征, 光流编码器将相 邻两帧之 间的空间对应关系作为输入, 生成对时空序列的光流信息的隐藏特征; 将当前时刻的形状 特征和前一时间步的形状特征在光流场作用后的隐藏特征之间的差分信号作为输入形变 编码器以建模这种 形变的动态性, 并输出最终的形变隐藏特征; 组合解码器将来自形变编 码器和形状编码器的输出作为输入, 并将它 们组合解码以生成下一帧的预测。 4.根据权利要求2所述光流形变分别编码 的视频预测方法, 其特征在于具体包括以下 步骤: 步骤1: 位置编码器从序列的单个帧中提取与位置相关的隐藏特征, 表示为mt=fpos (xt), 步骤2: 形状编码器从序列的单帧图像中抽取与形状有关的隐藏特征, 表示为st=fshape (xt), 步骤3: 光流编码器捕获连续帧之间的光流场运动特征, 将步骤1中得到的连续两帧图 像堆叠通过卷积神经网络来提取光流信息或通过corr操作在两个特征图之间执行分片的 像素比较; 步骤4: 使第 一幅图像在光流编码器模块得到的预测光流场中移动, 得到不考虑形变因 素的第二帧的预测图像; 步骤5: 通过计算形状编码器得到的图像特征与步骤4预测得到的图像特征之间的差分 信号, 来描述形变信息; 步骤6: 将步骤5 的输出的形变特征输入到堆叠的ConvLSTM中, 来建模形变特征随时间 演化的趋势, 并由此 预测得下一帧的形变特 征; 步骤7: 将上述步骤4得到的输出与步骤6得到的形变特征输入到聚合解码器, 得到对下 一帧图片的预测 5.根据权利要求2所述光流形变分别编码的视频预测方法, 其特征在于步骤3中corr操 作包括: 设 是t‑1时刻和t时刻的多通道特征图, w, h和c是相应 的宽, 高和通道数, 给定最大位移d, 对于第一个特征图mt‑1中的每个位置px, y, corr函数计算 px, y与第二个特征图mt的[x‑d, y‑d]×[x+d, y+d]区域内的每一个点q之间的特征相关性, 第 一个特征图中的点px1, y1与第二个特征图中的点qx2, y2之间的“相关性”定义为点px1, y1和点 qx2, y2之间的特 征向量的点积 权 利 要 求 书 1/2 页 2 CN 114429601 A 26.根据权利要求5所述光流形变分别编码的视频预测方法, 其特征在于步骤4中使用双 线性采样核函数来实现预测: 假设st‑1是t‑1时刻图像的形状特征, ut, l, vt, l是光流编码器输 出的光流场信息, 记操作 函数为warp(st‑1, ut, l, vt, l), warp(st‑1, ut, l, vt, l)通过双线性采样 核函数从st‑1中选择由ut, l, vt, l所指定的位置的像素值, 记 其中 则有: 记t‑1时刻的输入图像经 该步骤得到的输出为 wt。 7.根据权利要求6所述光流形变分别编码的视频预测方法, 其特征在于步骤5: 将wt和t 时刻的由形状编码器输出的形状特 征输入到一个差分函数, 则得到t时刻的形变特 征。 8.根据权利要求7所述光流形变分别编码的视频预测方法, 其特征在于步骤7: 步骤6得 到的形变特征记为dt, 聚合解码器将wt和dt进行连接操作得到ct=gcomb([dt, wt]), 其中 表示dt和wt在通道方向的连接操作, 表示聚合后 的特 征的高层表示, gcomb可通过一个卷积层来实现, ct被输入到解码模块 中, 从而将 ct这个对特 征的高层表示还原到原 始输入数据的像素空间。 9.根据权利要求2 ‑8任一项所述光流形变分别编码的视频预测方法, 其特征在于: 给定 一个视频数据集, 该数据集包含一系列图像序列数据, 每个序列包括前J+K个时间步的图像 数据, 其中前J个时间步的数据xt‑J, xt‑J+1, ..., xt作为模型的输入, 后K个时间步的数据xt+1, xt+2, ..., xt+K是真实输出序列; 模型利用前J个时间步的数据来预测最可能的输出序列 并与真实输出序列xt+1, xt+2, ..., xt+K计算损失, 然后利用反向传播算法来 最小化损失进行模型训练。权 利 要 求 书 2/2 页 3 CN 114429601 A 3

.PDF文档 专利 一种光流形变分别编码的视频预测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种光流形变分别编码的视频预测方法 第 1 页 专利 一种光流形变分别编码的视频预测方法 第 2 页 专利 一种光流形变分别编码的视频预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:26:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。