全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210866689.0 (22)申请日 2022.07.22 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 魏浩 甄沛宁 陈海宝  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 专利代理师 胡晶 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于计算机视觉的轻量化视频动作理解方 法及系统 (57)摘要 本发明提供了一种基于计算机视觉的轻量 化视频动作理解方法及系统, 包括: 根据原始RGB 图像得到RGB视频帧图像序列; 将RGB视 频帧图像 序列应用于深度光流提取网络提取相邻视频帧 之间的光流场; 通过深度神经网络提取RGB视频 帧图像中的高维空间特征信息以及光流场之间 的高维时间序列特征信息; 进行特征融合得到混 合后的信息融合特征; 将混合后的信息融合特征 应用于长短时间记忆网络, 训练得到用于视频动 作理解的时空网络模型; 将时空网络模型进行张 量化的精简压缩, 得到可实时运行的视频分析模 型。 本发明可运行于低功耗, 低空间占用的移动 端平台, 可有效的节省电力、 空间体积等资源消 耗; 可有效保证视频理解系统的鲁棒性与普适 性。 权利要求书3页 说明书12页 附图2页 CN 115205753 A 2022.10.18 CN 115205753 A 1.一种基于计算机 视觉的轻量 化视频动作理解方法, 其特 征在于, 包括: 步骤S1: 将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像, 根据原始RGB 图像得到RGB视频帧图像序列; 步骤S2: 将RGB视频帧图像序列通过深度光 流提取网络提取相邻视频帧之间的光 流场; 步骤S3: 通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之 间的高维时间序列特 征信息; 步骤S4: 将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行 特征融合, 得到混合后的信息融合特 征; 步骤S5: 将混合后的信息融合特征应用于长短时间记忆网络, 训练得到用于视频动作 理解的时空网络模型; 步骤S6: 将时空网络模型进行张量 化的精简压缩, 得到可实时运行的视频分析模型。 2.根据权利要求1所述的基于计算机视觉的轻量化视频动作理解方法, 其特征在于, 在 所述步骤S1中: 将短视频序列按照15FPS的帧率, 通过视频截取程序软件将图像截取处理为统一大小 尺寸的原 始RGB图像。 3.根据权利要求1所述的基于计算机视觉的轻量化视频动作理解方法, 其特征在于, 在 所述步骤S6中: 对训练后的基于长短时间记忆网络的动作理解 时空网络模型进行张量化的精简压缩, 得到复杂度降低的可实时运行的视频分析模型, 其包括如下步骤: 步骤S6.1: 对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩 阵W和输入特征x进高维张量表示, 得到张量化的模型参数和输入特征; 根据高维张量表示 的模型参数和输入特 征得到用高维张量表示 参数的深度动作理解 LSTM模型; 步骤S6.2: 对步骤S6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列 式分解得到 权重参数张量列式分解后的深度动作理解 LSTM模型; 步骤S6.3: 对权重参数张量列分解后的深度动作理解LSTM模型进行模型低比特量化精 简得到量化后的深度动作理解LSTM模型; 通过逐次渐进低比特量化模型压缩方法, 压缩量 化后的深度动作理解 LSTM模型 得到可实时运行的视频模型。 4.根据权利要求3所述的基于计算机 视觉的轻量 化视频动作理解方法, 其特 征在于: 在步骤S6.1中: 预设权重参数矩阵W, 通过矩阵分解和重排列操作将W张量化表示为d维 的张量参数 预设输入特 征x, 同样通过矩阵分解和形变操作将x张量 化为d维的张量特 征 在步骤S6,2中: 张量 化列式分解包括: 给定张量化表示的d维张量参数 通过使用d个张量核 的连续相乘进行分解和表示, 其中lk代表张量核中每一维度张量的维度, rk表示 张量秩, 张量秩为张量分解后矩阵相应的维度大小, k∈[1,d]; 中的每一个元素通过如下 方式重建:权 利 要 求 书 1/3 页 2 CN 115205753 A 2其中, pk表示矩阵中某一维度切片的序号, 且pk∈[1,lk]。 5.根据权利要求3所述的基于计算机 视觉的轻量 化视频动作理解方法, 其特 征在于: 在步骤S6.3中: 分解压缩后的深度时空LSTM模型为: 其 中 , 是 深 度 时 空 L S T M 模 型 中 输 入 层 至 隐 藏 层 的 输 出 , 是4维张量核, 是张量化表示的特 征, 是张量化表示的偏置, im和jn均为多维张量中维度的序号, 其中m={1、 2、……、 d}, n={1、 2、……、 d}。 6.一种基于计算机 视觉的轻量 化视频动作理解系统, 其特 征在于, 包括: 模块M1: 将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像, 根据原始RGB 图像得到RGB视频帧图像序列; 模块M2: 将RGB视频帧图像序列通过深度光 流提取网络提取相邻视频帧之间的光 流场; 模块M3: 通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之 间的高维时间序列特 征信息; 模块M4: 将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行 特征融合, 得到混合后的信息融合特 征; 模块M5: 将混合后的信息融合特征应用于长短时间记忆网络, 训练得到用于视频动作 理解的时空网络模型; 模块M6: 将时空网络模型进行张量 化的精简压缩, 得到可实时运行的视频分析模型。 7.根据权利要求6所述的基于计算机视觉的轻量化视频动作理解系统, 其特征在于, 在 所述模块M1中: 将短视频序列按照15FPS的帧率, 通过视频截取程序软件将图像截取处理为统一大小 尺寸的原 始RGB图像。 8.根据权利要求6所述的基于计算机视觉的轻量化视频动作理解系统, 其特征在于, 在 所述模块M 6中: 对训练后的基于长短时间记忆网络的动作理解 时空网络模型进行张量化的精简压缩, 得到复杂度降低的可实时运行的视频分析模型, 其包括如下步骤: 模块M6.1: 对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩 阵W和输入特征x进高维张量表示, 得到张量化的模型参数和输入特征; 根据高维张量表示 的模型参数和输入特 征得到用高维张量表示 参数的深度动作理解 LSTM模型; 模块M6.2: 对模块M6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列 式分解得到 权重参数张量列式分解后的深度动作理解 LSTM模型;权 利 要 求 书 2/3 页 3 CN 115205753 A 3

.PDF文档 专利 基于计算机视觉的轻量化视频动作理解方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于计算机视觉的轻量化视频动作理解方法及系统 第 1 页 专利 基于计算机视觉的轻量化视频动作理解方法及系统 第 2 页 专利 基于计算机视觉的轻量化视频动作理解方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。