全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210771422.3 (22)申请日 2022.06.30 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 罗冠 魏久桐 李兵 胡卫明  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 梁军丽 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G10L 25/18(2013.01) (54)发明名称 视频特征提取方法、 装置及电子设备 (57)摘要 本发明提供一种视频特征提取方法、 装置及 电子设备, 涉及视频处理技术领域, 可 以应用于 视频特征提取的场景。 该视频特征提取方法包 括: 获取视频图像和视频图像对应的音频数据; 将音频数据转换为声谱图, 得到声谱图像; 将视 频图像和声谱图像输入至视频特征提取模型, 得 到视频特征提取模型输出的视频特征; 其中, 视 频特征提取模型是基于样本视频数据和对偶式 对比学习模型对基础神经网络模型进行预训练 得到的, 对偶式对比学习模型用于对样本视频数 据经基础神经网络模型处理后输出的第一多模 态样本特征矩 阵分别进行行维度和列维度上的 对比学习。 本发 明提供的技术方案可以提高视频 特征提取的准确性和泛化 性。 权利要求书4页 说明书16页 附图3页 CN 115311595 A 2022.11.08 CN 115311595 A 1.一种视频 特征提取方法, 其特 征在于, 包括: 获取待处理视频数据, 所述待处理视频数据中包括视频图像和所述视频图像对应的音 频数据; 将所述音频 数据转换为声谱图, 得到声谱图像; 将所述视频图像和所述声谱图像输入至视频特征提取模型, 得到所述视频特征提取模 型输出的视频 特征; 其中, 所述视频特征提取模型是基于样本视频数据和对偶式对比学习 模型对基础神经 网络模型进行预训练得到的, 所述对偶式对比学习模型用于对所述样本视频数据经所述基 础神经网络模型处理后输出的第一多模态样本特征矩阵分别进行行维度和列维度上的对 比学习, 所述样本视频数据中包括样本视频图像和所述样本视频图像对应的样本音频声谱 图像。 2.根据权利要求1所述的视频特征提取方法, 其特征在于, 所述视频特征提取模型是基 于如下步骤训练得到的: 将所述样本视频数据输入至所述基础神经网络模型, 进行所述样本视频数据的特征提 取, 得到所述基础神经网络模型输出 的第一多模态样本特征矩阵, 所述第一多模态样本特 征矩阵包括第一样本 视频图像特 征矩阵和第一样本音频 特征矩阵; 采用所述对偶式对比学习模型的交叉注意力机制对所述第一样本视频图像特征矩阵 和所述第一样本音频特征矩阵进行联合注意力编码, 得到第二多模态样本特征矩阵, 所述 第二多模态样本特 征矩阵包括第二样本 视频图像特 征矩阵和第二样本音频 特征矩阵; 将所述第二多模态样本特征矩阵输入至所述对偶式对比学习模型的第 一特征编码层, 采用实例对比损失函数对所述基础神经网络模型和所述第一特征编码层进行基于所述第 一特征编 码层输出的第一 实例特征矩阵的行维度的对比学习训练, 得到更新后的基础神经 网络模型和更新后的第一特征编码层, 所述第一 实例特征矩阵包括第一视频图像实例特征 矩阵和第一音频实例特 征矩阵; 将所述第二多模态样本特征矩阵输入至所述对偶式对比学习模型的第二特征编码层 和所述更新后的第一特征编 码层, 采用多模态对比损失函数对所述更新后的基础神经网络 模型、 所述更新后的第一特征编码层和所述第二特征编 码层进行基于所述第二特征编 码层 输出的多模态集群特征矩阵的列维度和所述更新后的第一特征编码层输出的第二实例特 征矩阵的行维度的对比学习训练, 将所述更新后的基础神经网络模型经训练后得到的模型 确定为所述视频特征提取模型, 所述第二实例特征矩阵包括第二视频图像实例特征矩阵和 第二音频实例特 征矩阵; 其中, 所述第一特征编码层和所述第二特征编码层为对偶形式, 所述第一特征编码层 和所述第二特 征编码层用于对所述第二多模态样本特 征矩阵进行 特征过滤。 3.根据权利要求2所述的视频特征提取方法, 其特征在于, 所述实例对比损失函数为视 频多模态实例对比损失函数Lv1和音频多模态实例对比损失函数La1之和的0.5倍; 所述视频多模态实例对比损失函数Lv1为:权 利 要 求 书 1/4 页 2 CN 115311595 A 2所述音频多模态实例对比损失函数La1为: 其中, N表示所述第一特征编码层所输出的视频图像实例特征矩阵的行向量数, 所述第 一特征编码层所输出的音频实例特征矩阵的行向量数与所述视频图像实例特征矩阵的行 向量数相等, i和k表示行索引, τ1表示行维度的温度参数, sim(zvi, zai)和sim(zai, zvi)表示 所述视频图像实例特征矩阵的第i行行向量和所述音频实例特征矩阵的第i行行向量之间 的相似度, sim(zvi, zvk)表示所述视频图像实例特征矩阵的第i行和第k行 的行向量之间的 相似度, sim(zvi, zak)表示所述视频图像实例特征矩阵的第i行行向量和所述音频实例特征 矩阵的第k行行向量之间的相似度, sim(zai, zak)表示所述音频实例特征矩阵的第i行和第k 行的行向量之间的相似度, sim(zai, zvk)表示所述音频实例特征矩阵的第i行行向量和所述 视频图像实例特 征矩阵的第k行 行向量之间的相似度。 4.根据权利要求3所述的视频特征提取方法, 其特征在于, 所述多模态对比损失函数是 对所述第二特征编 码层的集群对比损失函数加权后与所述实例对比损失函数求和得到的, 所述集群对比损失函数是基于视频多模态集群对比损失函数Lv2和音频多模态集群对比损 失函数La2确定的; 所述多模态集群特征矩阵包括视频图像集群特征矩阵和音频集群特征矩 阵; 所述视频多模态集群对比损失函数Lv2为: 所述音频多模态集群对比损失函数La2为: 其中, M表示所述视频图像集群特征矩阵的列向量数, 所述音频集群特征矩阵的列向量 数与所述视频图像集群特征矩阵的列向量数相等, j和f表示列索引, τ2表示列维度的温度 参数, sim(yvj, yaj)和sim(yaj, yvj)表示所述视频图像 集群特征矩阵的第j列列向量和所述音 频集群特征矩阵的第j列列向量之间的相似度, sim(yvj, yvf)表示所述视频图像集群特征矩 阵的第j列和第f列的列向量之间的相似度, sim(yvj, yaf)表示所述视频图像集群特征矩阵 的第j列列向量和所述音频集群特征矩阵的第f列列向量之间的相似度, sim(yaj, yaf)表示 所述音频集群特征矩阵的第j列和第f列的列向量之间的相似度, sim(yaj, yvf)表示所述音 频集群特征矩阵的第j列列向量和所述视频图像集群特征矩阵的第f列列向量之间的相似权 利 要 求 书 2/4 页 3 CN 115311595 A 3

PDF文档 专利 视频特征提取方法、装置及电子设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频特征提取方法、装置及电子设备 第 1 页 专利 视频特征提取方法、装置及电子设备 第 2 页 专利 视频特征提取方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。