全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210135464.8 (22)申请日 2022.02.14 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 王子磊 贺楚景  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 韩珂 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) (54)发明名称 视频动作检测方法、 系统、 设备及存 储介质 (57)摘要 本发明公开了一种视频动作检测方法、 系 统、 设备及存储介质, 一方面, 本发明针对性地建 模动作执行者之间的交互关系, 充分利用了视频 信号的时空特性, 可以极大地增强目标特征的表 达能力, 进而大幅提升交互类动作的识别效果; 另一方面, 本发 明利用自注意力机制挖掘不同动 作类之间的依赖关系, 使 得原始类别表征的鲁棒 性和区分度进一步提高, 以较低的计算代价解决 了多标签问题。 权利要求书3页 说明书9页 附图4页 CN 114495282 A 2022.05.13 CN 114495282 A 1.一种视频动作检测方法, 其特 征在于, 包括: 获取视频片段并确定 视频片段中的关键帧; 将所述视频片段输入至特征提取网络部分, 通过目标检测与特征提取, 获得关键帧所 有检测框对应的区域特 征; 将关键帧所有检测框对应的区域特征分别 输入至短期交互模块与长期交互模块, 通过 所述短期交互模块对空间维度和时间维度上 的交互作用分别进行建模, 获得增强特征; 通 过所述长期交互模块构建以所述关键帧为中心的包含历史和未来时刻的特征库, 并通过注 意力机制与所述增强特 征进行交 互, 再与所述增强特 征拼接获得最终的特 征; 对所述最终的特征进行分类检测, 获得第一分类检测结果; 并且, 对所述最终的特征通 过计算类别 之间的依赖关系 再进行分类检测, 获得第二分类检测结果; 将所述第一分类检 测结果与所述第二分类 检测结果融合, 获得最终的分类 检测结果。 2.根据权利要求1所述的一种视频动作检测方法, 其特征在于, 所述通过所述短期交互 模块对空间维度和时间维度上的交 互作用分别进行建模, 获得增强特 征包括: 将当前时刻视频片段的特征矩阵记为 它由当前时刻视频片段中关键帧上 的所有检测框的区域特征构成; 其中, t表 示当前时刻, 也即视频片段在时间维度上的位置; Nt表示当前时刻的视频片段中关键帧上的检测框数目, d表示单个检测框对应 的区域特征 的维数, 表示实数集; 采用解耦机制, 使用图注意力网络, 对所述关键帧所有检测框对应的区域特征Lt依次建 模空间维度和时间维度上的交 互作用, 获得增强特 征 3.根据权利要求2所述的一种视频动作检测方法, 其特征在于, 所述使用图注意力网 络, 对所述关键帧所有检测框对应的区域特征Lt依次建模空间维度和时间维度上的交互作 用包括: 将检测框作为图网络中的节点, 不同检测框对应不同动作执行者, 动作执行者之间的 交互关系作为图网络的边, 节点的特 征向量为相应检测框的区域特 征; 将节点i的特征向量记为hi, 邻接节点集合记为Ni, 则经过图注意力网络建模空间维度 上的交互作用后, 获得 更新后的节点 i的特征向量, 表示 为: Wij=Softmax( σ(wbT[hi||hj])) 其中, hj表示节点i的邻接节点j的特征向量, [hi||hj]表示对特征向量hi与hj进行拼接 处理, Wij表示节点i与其邻接节 点j之间的权重系数, wb表示可学习的向量, T表 示转置符号; σ 表示线性整流 函数ReLU; 再采用相同的方式, 利用图注意力网络建模时间维度上的交互作用, 获得各节点增强 后的特征向量, 组成增强特 征。 4.根据权利要求1所述的一种视频动作检测方法, 其特征在于, 所述通过所述长期交互 模块构建以所述关键帧为中心的包含历史和未来时刻的特征库, 并通过注意力机制与所述 增强特征进行交 互包括: 将当前时刻视频片段的特征矩阵记为 它由当前时刻视频片段中关键帧上权 利 要 求 书 1/3 页 2 CN 114495282 A 2的所有检测框的区域特征构成; 其中, t表 示当前时刻, 也即视频片段在时间维度上的位置; Nt表示当前时刻的视频片段中关键帧上的检测框数目, d表示单个检测框对应 的区域特征 的维数, 表示实数集; 以当前时刻t为中心, 前后各取w个时刻的视频片段的特征矩阵组成特征库, 表示为 其中, Lt‑w、 Lt+w分别表示第t ‑w时刻、 第t+w时刻视频片段的特 征矩阵; 对增强特征St和特征库 分别做线性变换, 将线性变换后的增强特征作为注意力机制 中的query矩阵, 将进行不同线性变换后的特征库作为注意力机制中的key矩阵与value矩 阵; 在嵌入空间中使用内积计算所述query矩阵与key矩阵的语义相关性, 再依次进行尺度 缩放与归一 化; 将归一化后的结果作为权重系数, 对所述value矩阵进行加权, 再通过LayerNorm函数 进行处理后, 使用线性变换提取时序上的全局信息 。 5.根据权利要求1所述的一种视频动作检测方法, 其特征在于, 对所述最终的特征通过 计算类别之间的依赖关系再进行分类 检测, 获得第二分类 检测结果包括: 对于所述最终的特征中每一检测框对应的特征, 分别独立进行C次线性变换, C表示动 作类别数, 每一次线性变换都得到相应动作类别的表征; 对所有动作类别的表征, 通过自注意力机制计算出不同动作类别之间的语义相关性, 得到所有类别上的权 重系数; 所有动作类别的表征利用相应的权重系数进行加权再求和, 对获得的结果进行分类检 测, 预测每 个动作类别的概 率分数。 6.根据权利要求1所述的一种视频动作检测方法, 其特征在于, 所述将所述第 一分类检 测结果与所述第二分类 检测结果融合, 获得最终的分类 检测结果包括: 采用取最小值、 最大值或者平均值的方式融合所述第 一分类检测结果与所述第 二分类 检测结果, 获得最终的分类 检测结果, 表示 为: 其中, 表示第一分类检测结果, 表示第二分类检测结果, min、 max、 avg依次表示最小 值函数、 最大值 函数、 平均值 函数。 7.根据权利要求1所述的一种视频动作检测方法, 其特征在于, 在训练阶段, 总损 失函 数Loss包括: 短期交互模块与长期交互模块的损失函数Loss1, 以及分类检测部分的损失函 数Loss2, 表示为: Loss=Loss1+Loss2 其中: 权 利 要 求 书 2/3 页 3 CN 114495282 A 3

.PDF文档 专利 视频动作检测方法、系统、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频动作检测方法、系统、设备及存储介质 第 1 页 专利 视频动作检测方法、系统、设备及存储介质 第 2 页 专利 视频动作检测方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。