专利一种基于分段图卷积网络的视频动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210673157.5 (22)申请日 2022.06.15 (71)申请人郑州信息科技职业学院地址 450000 河南省郑州市郑东新区文苑北路龙子湖高校园区 (72)发明人张争　王珏　赵辉　王宇　丁肖摇　刘梦　李涛　 (74)专利代理机构郑州睿途知识产权代理事务所(普通合伙) 41183 专利代理师李伊宁 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于分段图卷积网络的视频动作识别方法 (57)摘要本发明公开了一种基于分段图卷积网络的视频动作识别方法，包括以下步骤： A：获取每个视频段中的帧样本图像并进行图像增强； B：提取图像增强后的每个帧样本图像的外观特征和运动特征； C:构建基于每个视频段的特征关联图与时序一致性图及对应的关系连接矩阵； D：通过图卷积神经网络对输出特征进行增强得到输出特征； E：将输出特征与池化后的原始特征进行融合得到最终的时空特征； F：利用中期融合模型和后期融合模型进行动作，对分段识别的结果取平均值，得到待识别视频的动作识别结果。本发明能够提高视频动作的识别准确性。权利要求书3页说明书8页附图1页 CN 115205963 A 2022.10.18 CN 115205963 A 1.一种基于分段图卷积网络的视频动作识别方法，其特征在于：包括以下步骤： A：对待识别视频进行分段得到若干个视频段，然后获取每个视频段中的帧样本图像并进行图像增强； B：使用二维卷积神经网络和三维卷积神经网络分别提取图像增强后的每个帧样本图像的外观特征和运动特征； C:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征，分别构建基于每个视频段的特征关联图GF与时序一致性图GT，以及特征关联图GF对应的关系连接矩阵AF与时序一致性图GT对应的关系连接矩阵AT； D：根据步骤C中得到的基于每个视频段的特征关联图GF与时序一致性图GT，以及对应的关系连接矩阵AF与AT，通过图卷积神经网络分别对特征关联图GF与时序一致性图GT中的输出特征进行增强，得到图卷积神经网络的输出特征Z； E：利用步骤D中得到的图卷积神经网络的输出特征Z，与池化后的原始特征F进行融合，得到最终的时空特征； F：将待识别视频进行分段得到多个视频段，然后根据步骤E中得到的最终的时空特征，利用中期融合模型和后期融合模型分别对每一个视频段进行动作识别并得到识别结果，最后对分段识别的结果取平均值，最终得到待识别视频的动作识别结果。 2.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法，其特征在于：所述的步骤A中，首先设待识别视频 Sk表示第k个视频段，待识别视频V共有N个视频段， k∈(1,2,...,N)，表示第k个视频段的t时刻的帧样本图像，表示视频V的视频帧集合， H， W和C分别表示每个帧样本图像的高度、宽度和通道， T为帧样本图像的总个数， t∈(1,2,...,T)；然后，利用随机水平翻转和随机裁剪对帧样本图像进行图像增强。 3.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法，其特征在于，所述的步骤B中，在使用二维卷积神经网络进行外观特征提取时：设第k个视频段中的帧样本图像 T为第k个视频段中帧样本图像的总个数；将每一个帧样本图像均通过外观特征提取函数φa获取对应的外观特征其中，表示第k个视频段中第t个帧样本图像的外观特征，下角标a表示外观特征；在使用三维卷积神经网络进行运动特征提取时：将每一个帧样本图像均通过运动特征提取函数φm获取对应的运动特征权　利　要　求　书 1/3 页 2 CN 115205963 A 2其中，下角标m表示运动特征。 4.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法，其特征在于，所述的步骤C包括以下具体步骤： C1：利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征，构建基于每个视频段的特征关联图GF及对应的关系连接矩阵AF；构建过程中，首先，将语义相关的特征进行连接，构建得到基于每个视频段的特征关联图GF；然后，根据从视频段中提取池化后的原始特征F＝{fa1,fa2,...,faT,fm}，通过下述公式分别计算由任意两个特征所形成的每个特征对的关联性； F(fai,faj)＝φ(fai)Tφ(faj)； (3) F(fai,fm)＝φ(fai)Tφ'(fm)； (4) 其中， fa1,fa2,...,faT表示该视频段中提取到的T个外观特征， fm表示该视频段中提取到的1个运动特征； fai,faj分别表示该视频段中不同时间戳提取到的T个外观特征中的第i个和第j个外观特征； φ(x)＝Wx与φ'(x)＝W'x分别表示外观特征变换函数和运动特征变换函数，其中W与W'分别为外观特征变换函数和运动特征变换函数中通过训练获得的权重矩阵。最后，通过公式(3)和(4)计算得到关联矩阵，然后对关联矩阵的每一行采用softmax函数做归一化处理，获得表示特征关联图的关系连接矩阵AF；归一化处理的公式为：其中，表示两个特征(xi,xj)经过归一化处理后的关联值， F(xi,xj)表示F(fai,faj) 或F(fai,fm)；即计算外观特征关联性时F(xi,xj)代入值为F(fai,faj)，计算外观特征与运动特征关联性时F(xi,xj)代入值为F(fai,fm)； C2：利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征，构建基于每个视频段的时序一致性图GT及对应的关系连接矩阵AT；构建过程中，首先，将运动特征放在T个外观特征的中心，将与动作相关的运动特征与不同时序上的外观特征进行连接，构建基于每个视频段的时序一致性图GT；然后，将时序一致性图GT直接建立在时序结构上，表示时序一致性的关系连接矩阵AT；第i个和第j个特征的时序一致性关系具体如下所示：其中，表示第i个和第j个特征的时序一致性关系， h是一个非负的核函数， fi和fj 分别表示第i个和第j个特征，核函数h采用指数内核，把范围限定在(0， 1]： h(fi,fj)＝exp(‑权　利　要　求　书 2/3 页 3 CN 115205963 A 3

专利 一种基于分段图卷积网络的视频动作识别方法

专利一种基于分段图卷积网络的视频动作识别方法