(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210673157.5
(22)申请日 2022.06.15
(71)申请人 郑州信息科技职业学院
地址 450000 河南省郑州市郑东 新区文苑
北路龙子湖高校园区
(72)发明人 张争 王珏 赵辉 王宇 丁肖摇
刘梦 李涛
(74)专利代理 机构 郑州睿途知识产权代理事务
所(普通合伙) 41183
专利代理师 李伊宁
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06V 10/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于分段图卷积网络的视频动作识别
方法
(57)摘要
本发明公开了一种基于分段图卷积网络的
视频动作识别方法, 包括以下步骤: A: 获取每个
视频段中的帧样本图像并进行图像增强; B: 提取
图像增强后的每个帧样本图像的外观特征和运
动特征; C:构建基于每个视频段的特征关联图与
时序一致性图及对应的关系连接矩阵; D: 通过图
卷积神经网络对输出特征进行增强得到输出特
征; E: 将输出特征与池化后的原始特征进行融合
得到最终的时空特征; F: 利用中期融合模型和后
期融合模型进行动作, 对分段识别的结果取平均
值, 得到待识别视频的动作识别结果。 本发明能
够提高视频动作的识别准确性。
权利要求书3页 说明书8页 附图1页
CN 115205963 A
2022.10.18
CN 115205963 A
1.一种基于分段图卷积网络的视频动作识别方法, 其特 征在于: 包括以下步骤:
A: 对待识别视频进行分段得到若干个视频段, 然后获取每个视频段中的帧样本图像并
进行图像增强;
B: 使用二维卷积神经网络和三维卷积神经网络分别提取图像增强后的每个帧样本 图
像的外观特 征和运动特 征;
C:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征, 分别构
建基于每个视频段的特征关联图GF与时序一致性图GT, 以及特征关联图GF对应的关系连接
矩阵AF与时序一 致性图GT对应的关系连接矩阵AT;
D: 根据步骤C中得到的基于每个视频段的特征关联图GF与时序一致性图GT, 以及对应的
关系连接矩阵AF与AT, 通过图卷积神 经网络分别对特征关联图GF与时序一致性图GT中的输
出特征进行增强, 得到图卷积神经网络的输出 特征Z;
E: 利用步骤D中得到的图卷积神经网络的输出特征Z, 与池化后的原始特征F进行融合,
得到最终的时空特 征;
F: 将待识别视频进行分段得到多个视频段, 然后根据步骤E中得到的最终的时空特征,
利用中期融合模型和 后期融合模型分别对每一个视频段进 行动作识别并得到识别结果, 最
后对分段识别的结果取平均值, 最终得到待识别视频的动作识别结果。
2.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法, 其特征在于: 所述
的步骤A中, 首先设待识别视频
Sk表示第k个视频段, 待识别视频V共有N个视
频段, k∈(1,2,...,N),
表示第k个视频段 的t时刻的帧样本图
像,
表示视频V的视频帧集合, H, W和C分别表示每个帧样本图像的高度、 宽度和通道, T为
帧样本图像的总个数, t∈(1,2,...,T); 然后, 利用随机水平翻转和随机裁剪对帧样 本图像
进行图像增强。
3.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法, 其特征在于, 所述
的步骤B中, 在使用二维卷积神经网络进行外观特 征提取时:
设第k个视频段中的帧样本图像
T为第k个视频段中帧样本图像
的总个数; 将每一个帧样本图像
均通过外观特征提取函数φa获取对
应的外观特 征
其中,
表示第k个视频 段中第t个帧样本图像
的外观特 征, 下角标a表示外观特 征;
在使用三维卷积神经网络进行运动特 征提取时:
将每一个帧样本图像
均通过运动特征提取函数φm获取对应的运
动特征
权 利 要 求 书 1/3 页
2
CN 115205963 A
2其中, 下角标m表示 运动特征。
4.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法, 其特征在于, 所述
的步骤C包括以下 具体步骤:
C1: 利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征, 构建基
于每个视频段的特征关联图GF及对应的关系连接矩阵AF;
构建过程中, 首先, 将语义相关的特征进行连接, 构建得到基于每个视频段的特征关联
图GF;
然后, 根据从视频段中提取池化后的原始特征F={fa1,fa2,...,faT,fm}, 通过下述公式
分别计算由任意两个特 征所形成的每 个特征对的关联性;
F(fai,faj)=φ(fai)Tφ(faj); (3)
F(fai,fm)=φ(fai)Tφ'(fm); (4)
其中, fa1,fa2,...,faT表示该视 频段中提取到的T个外观特征, fm表示该视 频段中提取到
的1个运动特征; fai,faj分别表示该视频段中不同时间戳提取到的T个外观特征中的第i个
和第j个外观特征; φ(x)=Wx与φ'(x)=W'x分别表示外观特征变换函数和运动特征变换
函数, 其中W与W'分别为外观特征变换函数和运动特征变换函数中通过训练获得的权重矩
阵。
最后, 通过公式(3)和(4)计算得到关联矩阵, 然后对关联矩阵的每一行采用softmax函
数做归一 化处理, 获得表示特 征关联图的关系连接矩阵AF;
归一化处理的公式为:
其中,
表示两个特征(xi,xj)经过归一化处理后的关联值, F(xi,xj)表示F(fai,faj)
或F(fai,fm); 即计算外观特征关联性时F(xi,xj)代入值为F(fai,faj), 计算外观特征与运动
特征关联性时F(xi,xj)代入值为F(fai,fm);
C2: 利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征, 构建基
于每个视频段的时序一 致性图GT及对应的关系连接矩阵AT;
构建过程中, 首先, 将运动特征放在T个外观特征的中心, 将与动作相关的运动特征与
不同时序上的外观特 征进行连接, 构建基于每 个视频段的时序一 致性图GT;
然后, 将时序一 致性图GT直接建立在时序结构上, 表示时序一 致性的关系连接矩阵AT;
第i个和第j个特 征的时序一 致性关系
具体如下 所示:
其中,
表示第i个和第j个特征的时序一致性关系, h是一个非负的核函数, fi和fj
分别表示第i个和第j个特征, 核函数h采用指数内核, 把 范围限定在(0, 1]: h(fi,fj)=exp(‑权 利 要 求 书 2/3 页
3
CN 115205963 A
3
专利 一种基于分段图卷积网络的视频动作识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:26:08上传分享