(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211056034.3
(22)申请日 2022.08.31
(71)申请人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 张娅 鞠陈 郑锟浩 刘金祥
谢伟迪 王延峰
(74)专利代理 机构 上海汉声知识产权代理有限
公司 3123 6
专利代理师 胡晶
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)G06V 10/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
弱监督视频时序动作检测与分类方法及系
统
(57)摘要
本发明提供了一种弱监督视频时序动作检
测与分类方法及系统, 包括: 根据输入长视频提
取单模态特征图; 将单模态特征图映射为动作分
类概率和动作定位概率图; 基于动作定位概率图
蒸馏背景伪标签; 根据输入长视频和动作名称列
表提取视觉特征图和文本特征图; 计算动作检测
概率图; 基于动作检测概率图蒸馏前景伪标签;
根据背景伪标签对动作定位进行背景协同优化;
根据前景伪标签对动作检测进行前景协同优化;
基于动作分类概率产生视频分类结果, 基于动作
定位概率图产生视频检测结果。 本发 明采用蒸馏
协同的策略, 促使单模态和跨模态框架优势互
补, 实现更完整 且准确的时序动作检测 和分类。
权利要求书4页 说明书15页 附图1页
CN 115272941 A
2022.11.01
CN 115272941 A
1.一种弱监 督视频时序动作检测与分类方法, 其特 征在于, 所述方法包括如下步骤:
步骤S1: 使用3D深度卷积特征编码网络, 对输入的长视频提取预设维度的单模态特征
图;
步骤S2: 使用全卷积层构成的动作分类网络将单模态特征图映射为预设维度的动作分
类概率, 并和给定的动作分类标签 计算损失函数;
步骤S3: 使用全卷积层构成的动作定位网络将单模态特征图映射为预设维度的动作定
位概率图;
步骤S4: 对于动作定位 概率图, 使用阈值法将其 转换为背景伪标签;
步骤S5: 对于 输入的动作名称列表, 使用能够学习的提词向量映射 为动作名称向量;
步骤S6: 对于输入的长视频和动作名称向量, 使用视觉文本预训练编码网络提取预设
维度的视 觉特征图和文本特 征图;
步骤S7: 使用全卷积层构成的时序网络强化视觉特征图, 将强化后的视觉特征图和文
本特征图进行矩阵乘法运 算, 产生动作检测概 率图;
步骤S8: 对于动作检测概 率图, 使用阈值法将其 转换为前 景伪标签;
步骤S9: 将背景伪标签用于指导动作检测网络的协同优化;
步骤S10: 将前 景伪标签用于指导动作定位网络的协同优化;
步骤S11: 针对动作分类概率、 动作定位概率图, 分别使用阈值法产生动作类别预测、 检
测位置预测。
2.根据权利要求1所述的弱监督视频时序动作检测与分类方法, 其特征在于, 所述步骤
S1基于RGB数据计算光流运动信息, 利用深度卷积构成的特征编码 网络, 将光流数据和RGB
数据分别映射为T*D维度的特征图; 其中, T代表视频的时间长度, D代表视频的特征维度; 将
RGB特征和光流特征进行级联, 产生融合后的单模态特 征图Fs, 其维度是T*2D;
所述步骤S2使用全卷积层构成的动作分类网络将单模态特征图Fs映射为预设维度的动
作分类概率K, 表 示每个视频包含不同动作类别的概率; 使用给定的动作分类标签对所述动
作分类概 率进行监 督, 计算损失函数训练动作分类网络, 直至损失函数收敛;
所述损失函数, 计算公式如下:
其中, θS是单模态特征编码网络的参数, θcls是动作分类网络的参数, (XI,YI)代表输入
视频和动作分类标签的分布, xi代表视频实例, yi是其动作分类标签, ΦS代表特征编码网
络, Φloc代表动作分类网络, H代 表交叉熵函数。
3.根据权利要求1所述的弱监督视频时序动作检测与分类方法, 其特征在于, 所述步骤
S3使用全卷积层构成的动作定位网络Φloc将单模态特征图Fs映射为预设维度的动作定位
概率图Lloc, 表示每帧属于不同动作类别的概 率, 其维度是T* C, C表示动作类别总数;
所述步骤S4对于动作定位概率图Lloc, 使用阈值法将其转换为三元背景伪标签Pb, 其维
度是T*C, 包含大量背景帧和少量前景帧, 帧值为0表 示该帧属于背 景, 帧值为 ‑1表示该帧标
签不确定, 帧值 为1表示该帧属于前 景;
所述步骤S5使用能够学习的提词向量Φpro将输入的动作名称列表映射为动作名称向
量。权 利 要 求 书 1/4 页
2
CN 115272941 A
24.根据权利要求1所述的弱监督视频时序动作检测与分类方法, 其特征在于, 所述步骤
S6对于输入的长视频RGB和动作名称向量, 使用视觉文本预训练编码网络提取视觉特征图
Fv和文本特 征图Ft, 其维度均为T*D;
所述步骤S7使用全卷积层构成 的时序网络Φtem强化视觉特征图Fv, 将强化后的视觉特
征图Fv'和文本特征图Ft进行矩阵乘法运算, 产生动 作检测概率图Ldec, 表示每帧属于不同动
作类别的概 率, 其维度是T* C;
所述步骤S8对于动作检测概率图Ldec, 使用阈值法将其转换为三元前景伪标签Pf, 其维
度是T*C, 包含大量前景帧和少量背景帧, 帧值为0表 示该帧属于背 景, 帧值为 ‑1表示该帧标
签不确定, 帧值 为1表示该帧属于前 景。
5.根据权利要求1所述的弱监督视频时序动作检测与分类方法, 其特征在于, 所述步骤
S9使用背景伪标签Pb指导动作检测网络的协同优化, 在背景或前景标签帧处进行监督, 忽
略标签不确定帧, 构建损失函数训练提词向量Φpro和时序网络Φtem, 直至损失函数收敛;
所述损失函数, 计算公式如下:
其中, θSV是跨模态视觉特征编码网络的参数, θST是跨模态文本特征编码网络的参数,
θpro是提词向量的参数, θtem是时序网络的参数, (XI,NC,PI,b)代表输入 视频, 动作名称列表和
背景伪标签的分布, xi代表视频实例, pi,b是其背景伪标签, ni是动作名称, ·表示矩阵乘法,
H代表交叉熵函数;
所述步骤S10使用前景伪标签Pf指导动作定位网络的协同优 化, 在背景或前景标签帧处
进行监督, 忽略标签不确定帧, 构建损失函数训练动作定位网络Φloc, 直至损失函数收敛;
所述损失函数, 计算公式如下:
其中θS是单模态特征编码网络的参数, θloc是动作定位网络的参数, (XI,PI,f)是输入视
频, 前景伪标签的分布, xi代表视频实例, pi,f是前景伪标签, H代 表交叉熵函数。
6.一种弱监 督视频时序动作检测与分类系统, 其特 征在于, 所述系统包括如下模块:
模块M1: 使用3D深度卷积特征编码网络, 对输入的长视频提取预设维度的单模态特征
图;
模块M2: 使用全卷积层构成的动作分类网络将单模态特征图映射为预设维度的动作分
类概率, 并和给定的动作分类标签 计算损失函数;
模块M3: 使用全卷积层构成的动作定位网络将单模态特征图映射为预设维度的动作定
位概率图;
模块M4: 对于动作定位 概率图, 使用阈值法将其 转换为背景伪标签;
模块M5: 对于输入的动作名称列表, 使用能够学习的提词向量映射 为动作名称向量;
模块M6: 对于输入的长视频和动作名称向量, 使用视觉文本预训练编码网络提取预设
维度的视 觉特征图和文本特 征图;
模块M7: 使用全卷积层构成的时序网络强化视觉特征图, 将强化后的视觉特征图和文
本特征图进行矩阵乘法运 算, 产生动作检测概 率图;权 利 要 求 书 2/4 页
3
CN 115272941 A
3
专利 弱监督视频时序动作检测与分类方法及系统
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:15:52上传分享