全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210257432.5 (22)申请日 2022.03.16 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 刘波 王陶然 汪铭 胡明芮  曹玖新  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 许小莉 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称 融合表情信息的密集视频描述方法及系统 (57)摘要 本发明公开了一种融合表情信息的密集视 频描述方法及系统, 本发明的方法步骤如下: 首 先利用预训练好的I3D模型和InceptionV3模型 分别提取视频的动态特征和行为类别特征; 再基 于视频上下文截取若干可能存在行为的视频片 段, 并为其各生成描述性文本; 之后根据视频片 段的视觉和文本信息, 对候选人物的行为进行识 别和跟踪; 根据视觉和音频信息, 预测行为主体 表情类别; 根据文本和表情信息, 构建模 型, 生成 融合表情信息的密集视频描述。 系统采用web交 互技术实现描述生成结果的可视化展示。 本发明 可以有效提高生成描述的准确性及丰富性, 鲁棒 性强。 此外, 结合语音合成等技术, 本发 明还能帮 助视障人士较好的理解视频。 权利要求书5页 说明书11页 附图3页 CN 114694062 A 2022.07.01 CN 114694062 A 1.一种融合表情信息的密集视频描述方法, 其特 征在于, 该 方法包括以下步骤: (1)视频特征提取 对视频进行帧率统一的预处理, 利用预训练好的I3D模型提取帧率统一预处理后的视 频的动态特征, 并利用预训练好的InceptionV3模型提取帧率统一预处理后的视频的行为 类别特征; (2)密集视频概要 描述生成 根据步骤(1)中得到的视频的动态特征以及行为类别特征, 从给定的一段视频中, 截取 若干最有可能存在行为的视频片段, 根据视频片段 的视觉信息, 选择一组含有高度相关行 为的视频片段, 并针对视频片段生成一条描述 性语句; (3)行为识别与主体定位 利用目标检测算法检测视频片段前k=16帧中的人物, 定位人体区域, 分析描述性语句 的主语, 排除不相符的人体区域, 然后利用目标跟踪算法Deep  Sort定位各人物在视频中的 位置, 并利用孪生网络进 行关联, 减少目标跟踪丢失的情况, 再利用行为识别算法得出各人 物的行为类别概率分布, 并根据描述性语句中的行为信息, 识别出最有可能是行为主体的 人物, 输出 该人物的位置信息; (4)行为主体表情识别 根据步骤(3)得到的人物的位置信息, 融合静态图像信息、 时序信息以及音频信息, 进 行行为主体表情识别; (5)构建融合表情信息的密集视频描述模型 根据步骤(2)和步骤(4)的输出, 利用依存关系分析算法解析描述性语句, 提取句子成 分, 利用语法规则生成新的描述 性语句, 得到融合表情信息的密集视频描述; (6)系统功能展示。 2.根据权利要求1所述的融合表情信息的密集视频描述方法, 其特征在于, 步骤(1)中 所述对视频进行 帧率统一的预处理是针对ActivityNet  Captions数据集中视频帧率不统 一的问题, 将所有视频帧率统一为25帧每秒, 对于帧率低于25帧每秒的进 行补帧, 对于帧率 大于25帧每秒的视频进行去冗余; 步骤(1)中所述对利用预训练好的I3D模型提取帧率统一预处理后的视频的动态特征, 具体是利用在Sports ‑1M视频数据集上预训练得到的I3D模型提取视频的时序特征: I3D网 络连续读取视频帧, 并每48帧输出一个固定长度的特征向量, 将I3D网络第七个全连接层的 输出做降维处 理, 嵌入到较低的5 00维向量空间中, 将其作为视频的时序特 征表示; 步骤(1)中所述利用预训练好的InceptionV3模型提取帧率统一预处理后的视频的行 为类别特征具体是利用在Kinetics400视频数据集上预训练得到的InceptionV3模型识别 视频中人物的行为, 该数据集总共包含400类行为, 每秒抽取一帧进行行为识别, 输出行为 类别的概率分布, 并将其作为视频的行为类别特征表示, 每个行为类别特征是一个400维的 向量。 3.根据权利要求1所述的融合表情信息的密集视频描述方法, 其特征在于, 步骤(2)具 体包括步骤: (2‑1)根据步骤(1)得到的视频的动态特征V={v1,v2,…,vT}, 其中vi(i=1…T)表示每 帧视频的行为类别特征, T表示该视频抽帧的数量, 利用双向SST(Single ‑stream 权 利 要 求 书 1/5 页 2 CN 114694062 A 2temporal)算法, 使用正向流和反向流信息, 在每个时间步计算相应视频片段存在行为的概 率, 各行为片段的综合置信度分数Cp, 计算公式如下: 其中 表示正向流置信度分数, 表示反向流置信度分数, N表示时间步的数目, 的计 算方式如下: 其中σ 表示Sigmoid函数, 表示在时间步t时的视频流置信度分数, 表示在时间步t 时LSTM单元的隐藏状态, 是表示比例系数的训练参数, bc是表示偏移系数的训练参数, 输 出最终置信度分数高于阈值的行为片段集 合P, P可形式化表示 为: 其中pi(i=1…M)表示最终置信度分数高于阈值的每个行为片段, 表示行为片段 pi的开始时间, 表示行为片段pi的结束时间, 表示反向流LSTM单元在行为片段pi 开始时间步的隐藏状态, 表示正向流LSTM单元在行为片段pi结束时间步的隐藏状态。 (2‑2)对于行为片段集合P, 根据指针网络, 利用注意力机制, 使用循环神经网络输出关 于输入序列的概率分布, 在每个时间步计算关于行为片段集合p的权值at, at的计算方式如 下: 其中ATT(·)表示Attention函数, 表示当前指针ptr对应的LSTM单元的隐藏状态, u (pi)通过以下 方式计算得到: u(pi)=[Loc(pi),Vis(pi)]        (5) Vis(pi)表示行为片段pi的视觉特征, Loc(pi)表示行为片段pi在整个视频中的位置; 将权值at作为选择各行为片段的概率, 选 择概率最高的输入元素作为输 出, 从而实现从 候选行为片段中选择一组高度相关的行为片段的目标; (2‑3)使用动态注意力机制以及门控机制融合行为类别信息、 上下文视觉信息以及当 前行为片段视 觉信息, 利用融合后的视 觉信息生成描述, 对于行为片段 根据其时间戳 从动 态特征序列V={v1,v2,…,vT}中提取pi对应的动态特征集合 作为当前行为片段视觉信 息; 行为类别特 征序列E表示如下: 其中b表示行为类别总数, Pr(li)表示行为片段的行为类别是li的概率, L表示视频帧权 利 要 求 书 2/5 页 3 CN 114694062 A 3

.PDF文档 专利 融合表情信息的密集视频描述方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合表情信息的密集视频描述方法及系统 第 1 页 专利 融合表情信息的密集视频描述方法及系统 第 2 页 专利 融合表情信息的密集视频描述方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。