专利弱监督视频时序动作检测与分类方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211056034.3 (22)申请日 2022.08.31 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人张娅　鞠陈　郑锟浩　刘金祥　谢伟迪　王延峰　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 专利代理师胡晶 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称弱监督视频时序动作检测与分类方法及系统 (57)摘要本发明提供了一种弱监督视频时序动作检测与分类方法及系统，包括：根据输入长视频提取单模态特征图；将单模态特征图映射为动作分类概率和动作定位概率图；基于动作定位概率图蒸馏背景伪标签；根据输入长视频和动作名称列表提取视觉特征图和文本特征图；计算动作检测概率图；基于动作检测概率图蒸馏前景伪标签；根据背景伪标签对动作定位进行背景协同优化；根据前景伪标签对动作检测进行前景协同优化；基于动作分类概率产生视频分类结果，基于动作定位概率图产生视频检测结果。本发明采用蒸馏协同的策略，促使单模态和跨模态框架优势互补，实现更完整且准确的时序动作检测和分类。权利要求书4页说明书15页附图1页 CN 115272941 A 2022.11.01 CN 115272941 A 1.一种弱监督视频时序动作检测与分类方法，其特征在于，所述方法包括如下步骤：步骤S1：使用3D深度卷积特征编码网络，对输入的长视频提取预设维度的单模态特征图；步骤S2：使用全卷积层构成的动作分类网络将单模态特征图映射为预设维度的动作分类概率，并和给定的动作分类标签计算损失函数；步骤S3：使用全卷积层构成的动作定位网络将单模态特征图映射为预设维度的动作定位概率图；步骤S4：对于动作定位概率图，使用阈值法将其转换为背景伪标签；步骤S5：对于输入的动作名称列表，使用能够学习的提词向量映射为动作名称向量；步骤S6：对于输入的长视频和动作名称向量，使用视觉文本预训练编码网络提取预设维度的视觉特征图和文本特征图；步骤S7：使用全卷积层构成的时序网络强化视觉特征图，将强化后的视觉特征图和文本特征图进行矩阵乘法运算，产生动作检测概率图；步骤S8：对于动作检测概率图，使用阈值法将其转换为前景伪标签；步骤S9：将背景伪标签用于指导动作检测网络的协同优化；步骤S10：将前景伪标签用于指导动作定位网络的协同优化；步骤S11：针对动作分类概率、动作定位概率图，分别使用阈值法产生动作类别预测、检测位置预测。 2.根据权利要求1所述的弱监督视频时序动作检测与分类方法，其特征在于，所述步骤 S1基于RGB数据计算光流运动信息，利用深度卷积构成的特征编码网络，将光流数据和RGB 数据分别映射为T*D维度的特征图；其中， T代表视频的时间长度， D代表视频的特征维度；将 RGB特征和光流特征进行级联，产生融合后的单模态特征图Fs，其维度是T*2D；所述步骤S2使用全卷积层构成的动作分类网络将单模态特征图Fs映射为预设维度的动作分类概率K，表示每个视频包含不同动作类别的概率；使用给定的动作分类标签对所述动作分类概率进行监督，计算损失函数训练动作分类网络，直至损失函数收敛；所述损失函数，计算公式如下：其中， θS是单模态特征编码网络的参数， θcls是动作分类网络的参数， (XI,YI)代表输入视频和动作分类标签的分布， xi代表视频实例， yi是其动作分类标签， ΦS代表特征编码网络， Φloc代表动作分类网络， H代表交叉熵函数。 3.根据权利要求1所述的弱监督视频时序动作检测与分类方法，其特征在于，所述步骤 S3使用全卷积层构成的动作定位网络Φloc将单模态特征图Fs映射为预设维度的动作定位概率图Lloc，表示每帧属于不同动作类别的概率，其维度是T* C， C表示动作类别总数；所述步骤S4对于动作定位概率图Lloc，使用阈值法将其转换为三元背景伪标签Pb，其维度是T*C，包含大量背景帧和少量前景帧，帧值为0表示该帧属于背景，帧值为 ‑1表示该帧标签不确定，帧值为1表示该帧属于前景；所述步骤S5使用能够学习的提词向量Φpro将输入的动作名称列表映射为动作名称向量。权　利　要　求　书 1/4 页 2 CN 115272941 A 24.根据权利要求1所述的弱监督视频时序动作检测与分类方法，其特征在于，所述步骤 S6对于输入的长视频RGB和动作名称向量，使用视觉文本预训练编码网络提取视觉特征图 Fv和文本特征图Ft，其维度均为T*D；所述步骤S7使用全卷积层构成的时序网络Φtem强化视觉特征图Fv，将强化后的视觉特征图Fv'和文本特征图Ft进行矩阵乘法运算，产生动作检测概率图Ldec，表示每帧属于不同动作类别的概率，其维度是T* C；所述步骤S8对于动作检测概率图Ldec，使用阈值法将其转换为三元前景伪标签Pf，其维度是T*C，包含大量前景帧和少量背景帧，帧值为0表示该帧属于背景，帧值为 ‑1表示该帧标签不确定，帧值为1表示该帧属于前景。 5.根据权利要求1所述的弱监督视频时序动作检测与分类方法，其特征在于，所述步骤 S9使用背景伪标签Pb指导动作检测网络的协同优化，在背景或前景标签帧处进行监督，忽略标签不确定帧，构建损失函数训练提词向量Φpro和时序网络Φtem，直至损失函数收敛；所述损失函数，计算公式如下：其中， θSV是跨模态视觉特征编码网络的参数， θST是跨模态文本特征编码网络的参数， θpro是提词向量的参数， θtem是时序网络的参数， (XI,NC,PI,b)代表输入视频，动作名称列表和背景伪标签的分布， xi代表视频实例， pi,b是其背景伪标签， ni是动作名称， ·表示矩阵乘法， H代表交叉熵函数；所述步骤S10使用前景伪标签Pf指导动作定位网络的协同优化，在背景或前景标签帧处进行监督，忽略标签不确定帧，构建损失函数训练动作定位网络Φloc，直至损失函数收敛；所述损失函数，计算公式如下：其中θS是单模态特征编码网络的参数， θloc是动作定位网络的参数， (XI,PI,f)是输入视频，前景伪标签的分布， xi代表视频实例， pi,f是前景伪标签， H代表交叉熵函数。 6.一种弱监督视频时序动作检测与分类系统，其特征在于，所述系统包括如下模块：模块M1：使用3D深度卷积特征编码网络，对输入的长视频提取预设维度的单模态特征图；模块M2：使用全卷积层构成的动作分类网络将单模态特征图映射为预设维度的动作分类概率，并和给定的动作分类标签计算损失函数；模块M3：使用全卷积层构成的动作定位网络将单模态特征图映射为预设维度的动作定位概率图；模块M4：对于动作定位概率图，使用阈值法将其转换为背景伪标签；模块M5：对于输入的动作名称列表，使用能够学习的提词向量映射为动作名称向量；模块M6：对于输入的长视频和动作名称向量，使用视觉文本预训练编码网络提取预设维度的视觉特征图和文本特征图；模块M7：使用全卷积层构成的时序网络强化视觉特征图，将强化后的视觉特征图和文本特征图进行矩阵乘法运算，产生动作检测概率图；权　利　要　求　书 2/4 页 3 CN 115272941 A 3

专利 弱监督视频时序动作检测与分类方法及系统

专利弱监督视频时序动作检测与分类方法及系统