专利一种多特征融合的视频描述方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210167890.X (22)申请日 2022.02.23 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人蔡晓东　周美欣　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 专利代理师朱晓彤 (51)Int.Cl. G06V 20/40(2022.01) G06K 9/62(2022.01) G06F 16/738(2019.01) G06V 10/80(2022.01) G06V 10/774(2022.01) (54)发明名称一种多特征融合的视频描述方法、装置及存储介质 (57)摘要本发明提供一种多特征融合的视频描述方法、装置及存储介质，导入数据集，数据集包括多个数据组，各个数据组包括视频与描述信息；分别对各个数据组中的视频进行特征提取，得到运动特征和全局特征，将运动特征和全局特征进行特征拼接，得到各个视频对应的视频特征，分别提取各个数据组中描述信息对应的对象特征，并计算贡献值，根据各个贡献值计算对应视频中所有视频帧的区域特征和；分别将各个视频对应的特征输入训练模型中进行融合训练，得到融合特征；分别将各个所述视频对应的描述信息转换为文本特征；分别将各个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的 transformer语言模型中，输出视频描述语句。权利要求书3页说明书6页附图1页 CN 114596523 A 2022.06.07 CN 114596523 A 1.一种多特征融合的视频描述方法，其特征在于，包括如下步骤：导入数据集，所述数据集包括多个数据组，各个所述数据组包括视频与描述信息；分别对各个所述数据组中的视频进行特征提取，得到运动特征和全局特征，将所述运动特征和所述全局特征进行特征拼接，得到各个视频对应的视频特征；分别提取各个数据组中描述信息对应的对象特征，并计算各个对象特征的贡献值，根据各个贡献值计算对应视频中所有视频帧的区域特征和；分别将各个所述视频对应的对象特征、视频特征以及区域特征和输入训练模型中进行融合训练，得到融合特征；分别将各个所述视频对应的描述信息转换为文本特征；分别将各个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的 transformer语言模型中，输出与各个视频对应的视频描述语句。 2.根据权利要求1所述的多特征融合的视频描述方法，其特征在于，所述分别对各个所述数据组中的视频进行特征提取，得到运动特征和全局特征，将所述运动特征和所述全局特征进行特征拼接，得到各个视频对应的视频特征，具体为：通过ResNet101网络对所述数据组中的视频进行特征提取，得到运动特征和全局特征；通过拼接公式将所述运动特征和所述全局特征进行特征拼接，得到视频特征，所述拼接公式为Fv＝cat(Fi， Fm)，其中， Fv为视频特征， Fi为全局特征， Fm为运动特征， cat为拼接符号。 3.根据权利要求1所述的多特征融合的视频描述方法，其特征在于，所述分别提取各个数据组中描述信息对应的对象特征，并计算各个对象特征的贡献值，根据各个贡献值计算对应视频中所有视频帧的区域特征和，具体为：通过Faster ‑RCNN快速区域卷积网络对各个所述数据组中的描述信息进行特征提取，得到对象特征；根据贡献值公式计算各个对象特征的贡献值，所述贡献值公式为其中， Fo为视频特征的贡献值， M为个视频帧内所有的对象特征， aj为对象特征的权重，所述权重为根据对象特征占视频画面的比例以及对象特征与视频中心距离计算得到的， ej为对象特征的词向量， w 为特征提取过程中产生的网络权重；根据区域特征公式和所述贡献值计算对应视频中所有视频帧的区域特征和，所述区域特征公式为其中， Fr为区域特征和， (v1， y1)和(v2， y2)分别为视频帧对象框的左上角坐标和右上角坐标， W和H为视频帧对象框的宽度和高度。 4.根据权利要求3所述的多特征融合的视频描述方法，其特征在于，所述分别将各个所述视频对应的对象特征、视频特征以及区域特征和输入训练模型中进行融合训练，得到融合特征，具体为：所述训练模型包括交叉多头注意块，其中，所述交叉多头注意块包括处理模块和输出模块，所述处理模块用于通过融合计算公式中进行融合训练，其中，所述融合计算公式为： Hv＝MultiHead(Fo,Fv’Fv)，权　利　要　求　书 1/3 页 2 CN 114596523 A 2Hr＝MultiHead(Fo,Fr’Fr)， Ho＝MultiHead(Fo,Fo’Fo)，其中， MultiHead为交叉多头注意块符号， Fv为视频特征， Fv’为视频特征标签， Fo为对象特征， Fo’为对象特征标签， Fr为区域特征和， Fr’为区域特征标签，所述输出模块用于输出融合结果，所述融合结果为：其中，为对视频特征编码后的输出，为对对象特征编码后的输出，为对区域特征和编码后的输出，其中， FOUTPUT＝MultiHead(F,H,H)， FOUTPUT为或或 F＝cat(Fv,Fo,Fr)， H＝cat(Hv,Ho,Hr)， cat为拼接符号， W1、 W2、 W3为训练模型在融合训练过程中产生的权重， BN为批量归一化符号。 5.一种多特征融合的视频描述装置，其特征在于，包括：导入模块，用于导入数据集，所述数据集包括多个数据组，各个所述数据组包括视频与描述信息；预处理模块，用于分分别对各个所述数据组中的视频进行特征提取，得到运动特征和全局特征，将所述运动特征和所述全局特征进行特征拼接，得到各个视频对应的视频特征；分别提取各个数据组中描述信息对应的对象特征，并计算各个对象特征的贡献值，根据各个贡献值计算对应视频中所有视频帧的区域特征和；多特征融合模块，用于分别将各个所述视频对应的对象特征、视频特征以及区域特征和输入训练模型中进行融合训练，得到融合特征；描述生成模块，用于分别将各个所述视频对应的描述信息转换为文本特征；分别将各个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的transformer语言模型中，输出视频描述语句。 6.根据权利要求5所述的多特征融合的视频描述装置，其特征在于，所述预处理模块中，分别对各个所述数据组中的视频进行特征提取，得到运动特征和全局特征，将所述运动特征和所述全局特征进行特征拼接，得到各个视频对应的视频特征，具体为：通过ResNet101网络对所述数据组中的视频进行特征提取，得到运动特征和全局特征；通过拼接公式将所述运动特征和所述全局特征进行特征拼接，得到视频特征，所述拼接公式为Fv＝cat(Fi， Fm)，其中， Fv为视频特征， Fi为全局特征， Fm为运动特征， cat为拼接符号。 7.根据权利要求5所述的多特征融合的视频描述装置，其特征在于，所述预处理模块中，分别提取各个数据组中描述信息对应的对象特征，并计算各个对象特征的贡献值，根据各个贡献值计算对应视频中所有视频帧的区域特征和，具体为：通过Faster ‑RCNN快速区域卷积网络对各个所述数据组中的描述信息进行特征提取，得到对象特征；根据贡献值公式计算各个对象特征的贡献值，所述贡献值公式为其中， Fo为视频特征的贡献值， M为个视频帧内所有的对象特征， aj为对象特征的权重，所述权重为根据对象特征占视频画面的比例以及对象特征与视频中心距离计算得到的， ej为对权　利　要　求　书 2/3 页 3 CN 114596523 A 3

专利 一种多特征融合的视频描述方法、装置及存储介质

专利一种多特征融合的视频描述方法、装置及存储介质