专利一种光流形变分别编码的视频预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111678492.6 (22)申请日 2021.12.31 (71)申请人中国科学院软件研究所地址 100000 北京市海淀区中关村南四街 4 号申请人贵阳信息技术研究院 (72)发明人闫碧莹　陈峰　许晶航　曹娅琪　张思卿　 (74)专利代理机构贵州派腾知识产权代理有限公司 521 14 代理人唐斌 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 10/04(2012.01) (54)发明名称一种光流形变分别编码的视频预测方法 (57)摘要本发明公开了一种光流形变分别编码的视频预测方法，将视频信息流按帧分离为位置和形状两条编码路径，对位置流特征应用神经光流估计方法以提取空间相关运动，对形状流特征进行差分运算以捕获细粒度的空间形变，最后将它们组合解码以生成下一帧的像素级预测。本发明所提出的将位移和形变分开建模的方法，可以降低预测的不确定性，减缓图像模糊的趋势。与当前最先进的基于雷达回波序列的临近降雨预测方法相比，所提出的模型表现更好，特别是对强降雨和相对较长时间步的预测。权利要求书2页说明书6页附图2页 CN 114429601 A 2022.05.03 CN 114429601 A 1.一种光流形变分别编码的视频预测方法，其特征在于：将视频信息流按帧分离为位置和形状两条编码路径，对位置流特征应用神经光流估计方法以提取空间相关运动，对形状流特征进行差分运算以捕获细粒度的空间形变，最后将它们组合解码以生成下一帧的像素级预测。 2.根据权利要求1所述光流形变分别编码的视频预测方法，其特征在于：建立光流形变神经网络，包括位置编码器，形状编码器，光流编码器，形变编码器以及组合解码器，每帧图片首先分别输入位置编码器和形状编码器，位置编码器的输出输入光流编码器，光流编码器和形状编码器的输出输入形变编码器，形变编码器和形状编码器的输出输入组合解码器得到下一帧的预测图像。 3.根据权利要求2所述光流形变分别编码的视频预测方法，其特征在于：位置编码器和形状编码器分别从单个帧中提取有意义的位置特征和形状特征，光流编码器将相邻两帧之间的空间对应关系作为输入，生成对时空序列的光流信息的隐藏特征；将当前时刻的形状特征和前一时间步的形状特征在光流场作用后的隐藏特征之间的差分信号作为输入形变编码器以建模这种形变的动态性，并输出最终的形变隐藏特征；组合解码器将来自形变编码器和形状编码器的输出作为输入，并将它们组合解码以生成下一帧的预测。 4.根据权利要求2所述光流形变分别编码的视频预测方法，其特征在于具体包括以下步骤：步骤1：位置编码器从序列的单个帧中提取与位置相关的隐藏特征，表示为mt＝fpos (xt)，步骤2：形状编码器从序列的单帧图像中抽取与形状有关的隐藏特征，表示为st＝fshape (xt)，步骤3：光流编码器捕获连续帧之间的光流场运动特征，将步骤1中得到的连续两帧图像堆叠通过卷积神经网络来提取光流信息或通过corr操作在两个特征图之间执行分片的像素比较；步骤4：使第一幅图像在光流编码器模块得到的预测光流场中移动，得到不考虑形变因素的第二帧的预测图像；步骤5：通过计算形状编码器得到的图像特征与步骤4预测得到的图像特征之间的差分信号，来描述形变信息；步骤6：将步骤5 的输出的形变特征输入到堆叠的ConvLSTM中，来建模形变特征随时间演化的趋势，并由此预测得下一帧的形变特征；步骤7：将上述步骤4得到的输出与步骤6得到的形变特征输入到聚合解码器，得到对下一帧图片的预测 5.根据权利要求2所述光流形变分别编码的视频预测方法，其特征在于步骤3中corr操作包括：设是t‑1时刻和t时刻的多通道特征图， w， h和c是相应的宽，高和通道数，给定最大位移d，对于第一个特征图mt‑1中的每个位置px， y， corr函数计算 px， y与第二个特征图mt的[x‑d， y‑d]×[x+d， y+d]区域内的每一个点q之间的特征相关性，第一个特征图中的点px1， y1与第二个特征图中的点qx2， y2之间的“相关性”定义为点px1， y1和点 qx2， y2之间的特征向量的点积权　利　要　求　书 1/2 页 2 CN 114429601 A 26.根据权利要求5所述光流形变分别编码的视频预测方法，其特征在于步骤4中使用双线性采样核函数来实现预测：假设st‑1是t‑1时刻图像的形状特征， ut， l， vt， l是光流编码器输出的光流场信息，记操作函数为warp(st‑1， ut， l， vt， l)， warp(st‑1， ut， l， vt， l)通过双线性采样核函数从st‑1中选择由ut， l， vt， l所指定的位置的像素值，记其中则有：记t‑1时刻的输入图像经该步骤得到的输出为 wt。 7.根据权利要求6所述光流形变分别编码的视频预测方法，其特征在于步骤5：将wt和t 时刻的由形状编码器输出的形状特征输入到一个差分函数，则得到t时刻的形变特征。 8.根据权利要求7所述光流形变分别编码的视频预测方法，其特征在于步骤7：步骤6得到的形变特征记为dt，聚合解码器将wt和dt进行连接操作得到ct＝gcomb([dt， wt])，其中表示dt和wt在通道方向的连接操作，表示聚合后的特征的高层表示， gcomb可通过一个卷积层来实现， ct被输入到解码模块中，从而将 ct这个对特征的高层表示还原到原始输入数据的像素空间。 9.根据权利要求2 ‑8任一项所述光流形变分别编码的视频预测方法，其特征在于：给定一个视频数据集，该数据集包含一系列图像序列数据，每个序列包括前J+K个时间步的图像数据，其中前J个时间步的数据xt‑J， xt‑J+1， ...， xt作为模型的输入，后K个时间步的数据xt+1， xt+2， ...， xt+K是真实输出序列；模型利用前J个时间步的数据来预测最可能的输出序列并与真实输出序列xt+1， xt+2， ...， xt+K计算损失，然后利用反向传播算法来最小化损失进行模型训练。权　利　要　求　书 2/2 页 3 CN 114429601 A 3

专利 一种光流形变分别编码的视频预测方法

专利一种光流形变分别编码的视频预测方法