专利 视频密集事件内容理解方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210241438.3 (22)申请日 2022.03.11 (65)同一申请的已公布的文献号申请公布号 CN 114627413 A (43)申请公布日 2022.06.14 (73)专利权人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人匡平　段其鹏　 (74)专利代理机构成都虹盛汇泉专利代理有限公司 51268 专利代理师王伟 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111079601 A,2020.04.28 CN 110929092 A,2020.0 3.27 US 202125 6977 A1,2021.08.19 审查员刘璇 (54)发明名称视频密集事件内容理解方法 (57)摘要本发明公开了一种视频密集事件内容理解方法，包括以下步骤： S1、对输入视频进行特征提取； S2、采用基于双向LSTM的双线性注意力机制特征融合方法提取的特征进行融合； S3、候选事件生成； S4、有序视频序列生成：采用深度学习的方式对候选时间集合中的候选事件数据进行筛选； S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句。本发明综合考虑视频的有效内容，从二维视觉特征，三维视觉特征，音频特征，视频语义特征四个层次分别进行了提取。通过本发明的方法能够对于视频当中的事件进行良好的划分，并进行结构化的特征表达。最终输出主题一致，逻辑关联性强，内容描述完整的描述段落，对于整个视频的多个事件实现理解。权利要求书4页说明书13页附图5页 CN 114627413 B 2022.09.13 CN 114627413 B 1.视频密集事件内容理解方法，其特征在于，包括以下步骤： S1、对输入视频进行特征提取：分别提取输入视频的二维视觉特征、三维视觉特征、音频特征和语义特征；语义特征包含两个部分：视频对象类别语义以及视频动作语义；视频对象类别语义信息通过将视频片段中的视频对象出现的概率及视频对象的出现频率、视频对象在视频片段中的像素运动速度编码融合到视频内容特征表示当中；具体流程如下： (1)将视频进行切分，每16帧作为一次视频片段，不足16帧的视频片段补0使其达到16 帧；将视频片段依次输入目标检测器，目标检测器产生一组对象的类别标签作为输出，记为并将同字典Dic当中的单词进行取交集，得到属于字典内容的视频对象集合 (2)计算视频对象在视频片段出现的平均次数 F(oi)：其中oi表示取交集后视频对象集合O的第i个视频对象， Lj(oi)表示第j帧中oi出现的次数； N代表每个视频片段的帧数； (3)计算视频对象出现的平均最大概率：在每一帧中统计该视频对象出现的最大概率 max(p(oi))，将所有帧的最大概率相加并除以帧数，得到视频对象在视频片段中出现的平均最大概率，即： (4)计算视频对象在相邻帧的像素运动速度V(oi)：式中，上标z和 z+1分别表示当前帧和下一帧， z＝1,2, …,N‑1； xz、 yz分别表示当前帧的横坐标和纵坐标， xz+1、 yz+1分别表示下一帧的横坐标和纵坐标，分别表示视频对象在相邻帧x轴和y轴上的运动速度；上述平均次数、平均最大概率及像素运动速度是视频对象oi的视频对象类别语义Oi的三个组成部分，具体的定义如下式所示： δ代表视频对象类别语义最后的编码组合，由n个检测出的对象Oi来进行表示；权　利　要　求　书 1/4 页 2 CN 114627413 B 2视频动作语义特征编码的流程细节如下： (5)采用TV ‑L1算法对16帧视频片段的每帧图片进行光流图提取，将得到的光流图作为原始帧的新通道，将新通道与原始图片进行连接后输入至I3D行为识别卷积预测网络；经过 I3D行为识别卷积预测网络后，输出一系列行为标签采用交集的方式得到被编码进语义特征的动作集合M，即 (6)将动作集合M中的动作信息进行编码，如下式所示：表示最终的输出编码形式，由一系列动作概率Pr(M1),Pr(M2),Pr(M3),...,Pr(MQ)组成， Q表示动作集合M中动作总数量；在提取和编码好视频对象类别语义特征δ和视频动作语义特征后，将两个语义特征进行拼接操作，然后整体送入线性全连接层实现维度变换和进一步整合编码，最后得到一个 1024维度的特征向量； S2、采用基于双向LSTM的双线性注意力机制特征融合方法将S1提取的特征进行融合； S3、候选事件生成； S4、有序视频序列生成：采用深度学习的方式对候选时间集合中的候选事件数据进行筛选，留下有序低重合的事件； S5、利用三栈式视频内容描述生成网络生成针对输入视频的多个描述语句；三栈式视频内容描述生成网络由三个层级网络构成，分别是用于编码整个视频背景信息的Context RNN、用于编码相邻两个事件之间相关性的Correlation RNN、以及用来生成内容描述的 Event RNN； Context RNN：以所有有序事件序列作为每一轮次的输入，在每一轮次的事件描述生成过程当中，将当前事件序列Seqi的所有特征向量在每一时刻timestrap逐个输入，以输入完毕后的Context RNN的隐藏层状态作为当前事件的主题特征表示输入到Event RNN当中参与内容描述生成，并以Event RNN的具有主题关联性质的输出描述作为下一轮次事件生成的Context RNN的输入； Correlation RNN：结构同Context RNN一致，区别在于模型的输入有所不同， Correlation RNN以相邻两事件的所有向量作为输入，输入完毕后产生一个隐藏层向量状态，作为Event RNN的输入，并且以Event RNN生成充分考虑事件相关性的输出描述作为下一轮次事件生成的Cor relation RNN的输入； Event RNN：将Context RNN、 Correlation RNN网络的输出以及当前需要进行内容生成的事件的所有特征向量拼接后作为输入，产生针对当前事件的内容描述语句；拼接的方式为：在输入特征头部嵌入由Context RNN编码的事件主题特征，中间则是需要进行内容生成的事件的具体特征向量，末尾则是由Corrletaion RNN编码生成的关联性语义特征。 2.根据权利要求1所述的视频密集事件内容理解方法，其特征在于，所述步骤S1中，利用二维视频特征提取网络提取输入视频的二维视觉特征，二维视频特征提取网络由两部分组成：第一部分为卷积网络，第二部分为单层长短期记忆网络；卷积网络由卷积层Conv1～Conv5堆叠而成，其中Conv1层由64个步长为2，大小为7*7的权　利　要　求　书 2/4 页 3 CN 114627413 B 3

专利 视频密集事件内容理解方法

专利视频密集事件内容理解方法