(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210167890.X
(22)申请日 2022.02.23
(71)申请人 桂林电子科技大 学
地址 541004 广西壮 族自治区桂林市七 星
区金鸡路1号
(72)发明人 蔡晓东 周美欣
(74)专利代理 机构 北京轻创知识产权代理有限
公司 11212
专利代理师 朱晓彤
(51)Int.Cl.
G06V 20/40(2022.01)
G06K 9/62(2022.01)
G06F 16/738(2019.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种多特征融合的视频描述方法、 装置及存
储介质
(57)摘要
本发明提供一种多特征融合的视频描述方
法、 装置及存储介质, 导入数据集, 数据集包括多
个数据组, 各个数据组包括视频与描述信息; 分
别对各个数据组中的视频进行特征提取, 得到运
动特征和全局特征, 将运动特征和全局特征进行
特征拼接, 得到各个视频对应的视频特征, 分别
提取各个数据组中描述信息对应的对象特征, 并
计算贡献值, 根据各个贡献值计算对应视频中所
有视频帧的区域特征和; 分别将各个视频对应的
特征输入训练模 型中进行融合训练, 得到融合特
征; 分别将各个所述视频对应的描述信息转换为
文本特征; 分别将各个所述视频对应的文本特征
和各个所述视频对应的融合特征输入到预设的
transformer语言模型中, 输出视频描述语句。
权利要求书3页 说明书6页 附图1页
CN 114596523 A
2022.06.07
CN 114596523 A
1.一种多特 征融合的视频描述方法, 其特 征在于, 包括如下步骤:
导入数据集, 所述数据集包括多个数据组, 各个所述数据组包括视频与描述信息;
分别对各个所述数据组中的视频进行特征提取, 得到运动特征和全局特征, 将所述运
动特征和所述全局特 征进行特征拼接, 得到各个视频对应的视频 特征;
分别提取各个数据组中描述信息对应的对象特征, 并计算各个对象特征的贡献值, 根
据各个贡献值计算对应视频中所有视频帧的区域特 征和;
分别将各个所述视频对应的对象特征、 视频特征以及区域特征和输入训练模型中进行
融合训练, 得到融合特 征;
分别将各个所述视频对应的描述信息转换为文本特 征;
分别将各个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的
transformer语言模型中, 输出与各个视频对应的视频描述语句。
2.根据权利要求1所述的多特征融合的视频描述方法, 其特征在于, 所述分别对各个所
述数据组中的视频进行特征提取, 得到运动特征和全局特征, 将所述运动特征和所述全局
特征进行特征拼接, 得到各个视频对应的视频 特征, 具体为:
通过ResNet101网络对所述数据组中的视频进行 特征提取, 得到运动特 征和全局特 征;
通过拼接公式将所述运动特征和所述全局特征进行特征拼接, 得到视频特征, 所述拼
接公式为Fv=cat(Fi, Fm), 其中, Fv为视频特征, Fi为全局特征, Fm为运动特征, cat为拼接符
号。
3.根据权利要求1所述的多特征融合的视频描述方法, 其特征在于, 所述分别提取各个
数据组中描述信息对应的对 象特征, 并计算各个对 象特征的贡献值, 根据各个贡献值计算
对应视频中所有视频帧的区域特 征和, 具体为:
通过Faster ‑RCNN快速区域卷积网络对各个所述数据组中的描述信息进行特征提取,
得到对象特 征;
根据贡献值公式 计算各个对象特征的贡献值, 所述贡献值公式为
其中, Fo为视频特征的贡献值, M为个视频帧内所有的对象特征, aj为对象特征的权重, 所述
权重为根据对象特征占视频画面的比例以及对象特征与 视频中心距离计算得到的, ej为对
象特征的词向量, w 为特征提取过程中产生的网络 权重;
根据区域特征公式和所述贡献值计算对应视频中所有视频帧的区域特征和, 所述区域
特征公式为
其中, Fr为区域特 征和,
(v1, y1)和(v2, y2)分别为视
频帧对象框的左上角坐标和右上角坐标, W和H为视频帧对象框的宽度和高度。
4.根据权利要求3所述的多特征融合的视频描述方法, 其特征在于, 所述分别将各个所
述视频对应的对 象特征、 视频特征以及区域特征和输入训练模型中进行融合训练, 得到融
合特征, 具体为:
所述训练模型包括交叉多头注意块, 其中, 所述交叉多头注意块包括处理模块和输出
模块, 所述处 理模块用于通过融合计算公式 中进行融合训练, 其中, 所述融合计算公式为:
Hv=MultiHead(Fo,Fv’Fv),权 利 要 求 书 1/3 页
2
CN 114596523 A
2Hr=MultiHead(Fo,Fr’Fr),
Ho=MultiHead(Fo,Fo’Fo),
其中, MultiHead为交叉多头注意块符号, Fv为视频特征, Fv’为视频特征标签, Fo为对象
特征, Fo’为对象特 征标签, Fr为区域特 征和, Fr’为区域特 征标签,
所述输出模块用于 输出融合结果, 所述融合结果 为:
其中,
为对视频特征编码后 的输出,
为对对象特征编码后 的输出,
为对区域特征和编码后的输出, 其中, FOUTPUT=MultiHead(F,H,H), FOUTPUT为
或
或
F=cat(Fv,Fo,Fr), H=cat(Hv,Ho,Hr), cat为拼接符号, W1、 W2、 W3为
训练模型在融合训练过程中产生的权 重, BN为批量归一 化符号。
5.一种多特 征融合的视频描述装置, 其特 征在于, 包括:
导入模块, 用于导入数据集, 所述数据集包括多个数据组, 各个所述数据组包括视频与
描述信息;
预处理模块, 用于分分别对各个所述数据组中的视频进行特征提取, 得到运动特征和
全局特征, 将所述运动特征和所述全局特征进行特征拼接, 得到各个视频对应的视频特征;
分别提取各个数据 组中描述信息对应的对 象特征, 并计算各个对象特征 的贡献值, 根据各
个贡献值计算对应视频中所有视频帧的区域特 征和;
多特征融合模块, 用于分别将各个所述视频对应的对象特征、 视频特征以及区域特征
和输入训练模型中进行融合训练, 得到融合特 征;
描述生成模块, 用于分别将各个所述视频对应的描述信息转换为文本特征; 分别将各
个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的transformer语
言模型中, 输出视频描述语句。
6.根据权利要求5所述的多特征融合的视频描述装置, 其特征在于, 所述预处理模块
中, 分别对各个所述数据组中的视频进 行特征提取, 得到运动特征和全局特征, 将所述运动
特征和所述全局特 征进行特征拼接, 得到各个视频对应的视频 特征, 具体为:
通过ResNet101网络对所述数据组中的视频进行 特征提取, 得到运动特 征和全局特 征;
通过拼接公式将所述运动特征和所述全局特征进行特征拼接, 得到视频特征, 所述拼
接公式为Fv=cat(Fi, Fm), 其中, Fv为视频特征, Fi为全局特征, Fm为运动特征, cat为拼接符
号。
7.根据权利要求5所述的多特征融合的视频描述装置, 其特征在于, 所述预处理模块
中, 分别提取各个数据组中描述信息对应的对象特征, 并计算各个对象特征的贡献值, 根据
各个贡献值计算对应视频中所有视频帧的区域特 征和, 具体为:
通过Faster ‑RCNN快速区域卷积网络对各个所述数据组中的描述信息进行特征提取,
得到对象特 征;
根据贡献值公式计算各个对象 特征的贡献值, 所述贡献值公式为
其中, Fo为视频特征的贡献值, M为个视频帧内所有的对象特征, aj为对象特征的权重, 所述
权重为根据对象特征占视频画面的比例以及对象特征与 视频中心距离计算得到的, ej为对权 利 要 求 书 2/3 页
3
CN 114596523 A
3
专利 一种多特征融合的视频描述方法、装置及存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:18:13上传分享