专利基于计算机视觉的轻量化视频动作理解方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210866689.0 (22)申请日 2022.07.22 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人魏浩　甄沛宁　陈海宝　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 专利代理师胡晶 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于计算机视觉的轻量化视频动作理解方法及系统 (57)摘要本发明提供了一种基于计算机视觉的轻量化视频动作理解方法及系统，包括：根据原始RGB 图像得到RGB视频帧图像序列；将RGB视频帧图像序列应用于深度光流提取网络提取相邻视频帧之间的光流场；通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；进行特征融合得到混合后的信息融合特征；将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。本发明可运行于低功耗，低空间占用的移动端平台，可有效的节省电力、空间体积等资源消耗；可有效保证视频理解系统的鲁棒性与普适性。权利要求书3页说明书12页附图2页 CN 115205753 A 2022.10.18 CN 115205753 A 1.一种基于计算机视觉的轻量化视频动作理解方法，其特征在于，包括：步骤S1：将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像，根据原始RGB 图像得到RGB视频帧图像序列；步骤S2：将RGB视频帧图像序列通过深度光流提取网络提取相邻视频帧之间的光流场；步骤S3：通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；步骤S4：将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行特征融合，得到混合后的信息融合特征；步骤S5：将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；步骤S6：将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。 2.根据权利要求1所述的基于计算机视觉的轻量化视频动作理解方法，其特征在于，在所述步骤S1中：将短视频序列按照15FPS的帧率，通过视频截取程序软件将图像截取处理为统一大小尺寸的原始RGB图像。 3.根据权利要求1所述的基于计算机视觉的轻量化视频动作理解方法，其特征在于，在所述步骤S6中：对训练后的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到复杂度降低的可实时运行的视频分析模型，其包括如下步骤：步骤S6.1：对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩阵W和输入特征x进高维张量表示，得到张量化的模型参数和输入特征；根据高维张量表示的模型参数和输入特征得到用高维张量表示参数的深度动作理解 LSTM模型；步骤S6.2：对步骤S6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列式分解得到权重参数张量列式分解后的深度动作理解 LSTM模型；步骤S6.3：对权重参数张量列分解后的深度动作理解LSTM模型进行模型低比特量化精简得到量化后的深度动作理解LSTM模型；通过逐次渐进低比特量化模型压缩方法，压缩量化后的深度动作理解 LSTM模型得到可实时运行的视频模型。 4.根据权利要求3所述的基于计算机视觉的轻量化视频动作理解方法，其特征在于：在步骤S6.1中：预设权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数预设输入特征x，同样通过矩阵分解和形变操作将x张量化为d维的张量特征在步骤S6,2中：张量化列式分解包括：给定张量化表示的d维张量参数通过使用d个张量核的连续相乘进行分解和表示，其中lk代表张量核中每一维度张量的维度， rk表示张量秩，张量秩为张量分解后矩阵相应的维度大小， k∈[1,d]；中的每一个元素通过如下方式重建：权　利　要　求　书 1/3 页 2 CN 115205753 A 2其中， pk表示矩阵中某一维度切片的序号，且pk∈[1,lk]。 5.根据权利要求3所述的基于计算机视觉的轻量化视频动作理解方法，其特征在于：在步骤S6.3中：分解压缩后的深度时空LSTM模型为：其中，是深度时空 L S T M 模型中输入层至隐藏层的输出，是4维张量核，是张量化表示的特征，是张量化表示的偏置， im和jn均为多维张量中维度的序号，其中m＝{1、 2、……、 d}， n＝{1、 2、……、 d}。 6.一种基于计算机视觉的轻量化视频动作理解系统，其特征在于，包括：模块M1：将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像，根据原始RGB 图像得到RGB视频帧图像序列；模块M2：将RGB视频帧图像序列通过深度光流提取网络提取相邻视频帧之间的光流场；模块M3：通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；模块M4：将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行特征融合，得到混合后的信息融合特征；模块M5：将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；模块M6：将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。 7.根据权利要求6所述的基于计算机视觉的轻量化视频动作理解系统，其特征在于，在所述模块M1中：将短视频序列按照15FPS的帧率，通过视频截取程序软件将图像截取处理为统一大小尺寸的原始RGB图像。 8.根据权利要求6所述的基于计算机视觉的轻量化视频动作理解系统，其特征在于，在所述模块M 6中：对训练后的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到复杂度降低的可实时运行的视频分析模型，其包括如下步骤：模块M6.1：对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩阵W和输入特征x进高维张量表示，得到张量化的模型参数和输入特征；根据高维张量表示的模型参数和输入特征得到用高维张量表示参数的深度动作理解 LSTM模型；模块M6.2：对模块M6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列式分解得到权重参数张量列式分解后的深度动作理解 LSTM模型；权　利　要　求　书 2/3 页 3 CN 115205753 A 3

专利 基于计算机视觉的轻量化视频动作理解方法及系统

专利基于计算机视觉的轻量化视频动作理解方法及系统