(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210241438.3
(22)申请日 2022.03.11
(65)同一申请的已公布的文献号
申请公布号 CN 114627413 A
(43)申请公布日 2022.06.14
(73)专利权人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 匡平 段其鹏
(74)专利代理 机构 成都虹盛汇泉专利代理有限
公司 51268
专利代理师 王伟
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111079601 A,2020.04.28
CN 110929092 A,2020.0 3.27
US 202125 6977 A1,2021.08.19
审查员 刘璇
(54)发明名称
视频密集事 件内容理解方法
(57)摘要
本发明公开了一种视频密集事件内容理解
方法, 包括以下步骤: S1、 对输入视频进行特征提
取; S2、 采用基于双向LSTM的双线性注意力机制
特征融合方法提取的特征进行融合; S3、 候选事
件生成; S4、 有序视频序列生成: 采用深度学习的
方式对候选时间集合中的候选事件数据进行筛
选; S5、 利用三栈式视频内容描述生成网络生成
针对输入视频的多个描述语句。 本发 明综合考虑
视频的有效内容, 从二维视觉特征, 三维视觉特
征, 音频特征, 视频语义特征四个层次分别进行
了提取。 通过本发明的方法能够对于视频当中的
事件进行良好的划分, 并进行结构化的特征表
达。 最终输 出主题一致, 逻辑关联性强, 内容描 述
完整的描述段落, 对于整个视频的多个事件实现
理解。
权利要求书4页 说明书13页 附图5页
CN 114627413 B
2022.09.13
CN 114627413 B
1.视频密集事 件内容理解方法, 其特 征在于, 包括以下步骤:
S1、 对输入视频进行特征提取: 分别提取输入视频的二维视觉特征、 三维视觉特征、 音
频特征和语义特 征;
语义特征包含两个部分: 视频对象类别语义以及视频动作语义;
视频对象类别语义信息通过将视频片段中的视频对象出现的概率及视频对象的出现
频率、 视频对 象在视频片段中的像素运动速度编码融合到视频内容特征表示当中; 具体流
程如下:
(1)将视频进行切 分, 每16帧作为一次视频片段, 不足16帧的视频片段补0使其达到16
帧; 将视频片段依次输入目标检测器, 目标检测器产生一组对象 的类别标签作为输出, 记 为
并将
同字典Dic当中的单词进行取交集, 得到属于字典内容的视频对象集合
(2)计算视频对象在视频片段 出现的平均次数 F(oi):
其中oi表示取交集后视频对象集合O的第i个视频对象, Lj(oi)表示第j帧中oi出现的次
数; N代表每个视频片段的帧数;
(3)计算视频对象出现的平均最大概率: 在每一帧中统计该视频对象出现的最大概率
max(p(oi)), 将所有帧的最大概率相加并除以帧数, 得到视频对象在视频片段中出现的平
均最大概 率, 即:
(4)计算视频对象在相邻帧的像素运动速度V(oi):
式中, 上标z和 z+1分别表示当前帧和下一 帧, z=1,2, …,N‑1; xz、 yz分别表示当前帧的
横坐标和纵坐标, xz+1、 yz+1分别表示下一帧的横坐标和纵坐标,
分别表示视频对象在
相邻帧x轴和y轴上的运动速度;
上述平均次数、 平均最大概率及像素运动速度是视频对象oi的视频对象类别语义Oi的
三个组成部分, 具体的定义如下式所示:
δ代表视频对象类别语义 最后的编码组合, 由n个 检测出的对象Oi来进行表示;权 利 要 求 书 1/4 页
2
CN 114627413 B
2视频动作语义特 征编码的流 程细节如下:
(5)采用TV ‑L1算法对16帧视频片段的每帧图片进行光流图提取, 将得到的光流图作 为
原始帧的新通道, 将新通道与 原始图片进 行连接后输入至I3D行为识别卷积预测网络; 经过
I3D行为识别卷积预测网络后, 输出一系列行为标签
采用交集的方式得到被编码进语义
特征的动作集 合M, 即
(6)将动作集 合M中的动作信息进行编码, 如下式所示:
表示最终的输出编码形式, 由一系列动作概率Pr(M1),Pr(M2),Pr(M3),...,Pr(MQ)组
成, Q表示动作集 合M中动作总数量;
在提取和编码好视频对象类别语义特征δ和视频动作 语义特征
后, 将两个语义特征进
行拼接操作, 然后整体送入线性全连接层实现维度变换和进一步整合编码, 最后得到一个
1024维度的特 征向量;
S2、 采用基于双向LSTM的双线性注意力机制特 征融合方法将S1提取的特 征进行融合;
S3、 候选事 件生成;
S4、 有序视频序列生成: 采用深度学习的方式对候选时间集合中的候选事件数据进行
筛选, 留下有序低重合的事 件;
S5、 利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句; 三栈式视
频内容描述生成网络由三个层级网络构成, 分别 是用于编码整个视频背景信息的Context
RNN、 用于编码相邻两个事件之间相关性的Correlation RNN、 以及用来生成内容描述的
Event RNN;
Context RNN: 以所有有序事件序列作为每一轮次的输入, 在每一轮次的事件描述生成
过程当中, 将当前事件序列Seqi的所有特征向量在每一时刻timestrap逐个输入, 以输入完
毕后的Context RNN的隐藏层状态作为当前事件的主题特征表示输入到Event RNN当中参
与内容描述生成, 并以Event RNN的具有主题关联性质的输出描述作为下一轮次事件生成
的Context RNN的输入;
Correlation RNN: 结构同Context RNN一致, 区别在于模型的输入有所不同,
Correlation RNN以相邻两事件的所有向量作为输入, 输入完毕后产生一个隐藏层向量状
态, 作为Event RNN的输入, 并且以Event RNN生成充分考虑事件相关性的输出描述作为下
一轮次事 件生成的Cor relation RNN的输入;
Event RNN: 将Context RNN、 Correlation RNN网络的输出以及当前需要进行内容生成
的事件的所有特 征向量拼接后作为输入, 产生针对当前事 件的内容描述语句;
拼接的方式为: 在输入特征头部嵌入由Context RNN编码的事件主题特征, 中间则是需
要进行内容生成的事件的具体特征向量, 末尾则是由Corrletaion RNN编码生成 的关联性
语义特征。
2.根据权利要求1所述的视频密集事件内容理解方法, 其特征在于, 所述步骤S1中, 利
用二维视频特征提取网络提取输入视频的二 维视觉特征, 二 维视频特征提取网络由两部分
组成: 第一部分为卷积网络, 第二部分为单层长短期记 忆网络;
卷积网络由卷积层Conv1~Conv5堆叠而成, 其中Conv1层由64个步长为2, 大小为7*7的权 利 要 求 书 2/4 页
3
CN 114627413 B
3
专利 视频密集事件内容理解方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:30上传分享