全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210195639.4 (22)申请日 2022.03.01 (71)申请人 北京赛思信安 技术股份有限公司 地址 100125 北京市朝阳区霞光里8号承 冀 诚大厦二层 (72)发明人 谢铭 吴林涛 董建武 索帅  郑博文 王立刚 蔡荣华 胡小勇  (74)专利代理 机构 北京代代志同知识产权代理 事务所(普通 合伙) 16004 专利代理师 冀学军 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/71(2019.01) G06V 20/40(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于注意力机制的卷积神经网络相似 视频检索方法 (57)摘要 本发明公开一种基于注意力机制的卷积神 经网络相似视频检索方法包括: 检索视频的关键 帧抽取, 使用块结构思想代替连续结构思想。 视 频关键帧图像处理, 引入去纯色算法和增强图像 整体与局部特征。 关键帧特征提取, 使用改进的 ResNet‑50对关键帧特征提取。 检索视频关键帧 特征相似检索, 引入Faiss检索。 帧间结果后处 理, 引入矫正机和Softmax机制。 本发明主要 解决 了大规模相似视频检索的时间与精度问题, 在不 降低精度的同时有效的降低了检索时长, 大幅度 的提升了视频的检索性能。 权利要求书2页 说明书6页 附图5页 CN 114579805 A 2022.06.03 CN 114579805 A 1.一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征在于: 具体步骤如 下: 步骤1: 检索视频的关键帧抽取; 步骤2: 检索视频的关键帧图像处理, 通过去纯色算法和增强图像整体与局部特征; 同 时将关键帧图像K等分, 将分割后的图像缩放到原图大小; 加上分割前的关键帧图像, 总共 是K+1张图像; 并对K+1份图像分别做归一 化处理, 使得每张图像的数值满足标准 正态分布; 步骤3: 关键帧特 征提取; 步骤4: 采用Fais s检索, 进行检索视频的关键帧特 征相似检索; 步骤5: 帧间结果后处 理; 通过矫正机制将检索视频每一帧的检索结果重新进行修正, 使每个关键帧仅对应一个 索引号; 将所有的结果按着相同的索引号进行统计, 经过Softmax机制, 最后 返回检索到相 似视频地置信度。 2.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征 在于: 步骤1中, 关键帧抽取采用块结构, 将块抽取的一帧画面称为关键帧, 方法为: 将首个 不是纯色的视频画面作为视频的起始关键帧; 在确定起始关键 帧后, 每一个块抽取一帧画 面; 随后通过差分法计算视频之后每一帧与前一关键帧之间的相似距离, 差分法公式: 其中, h表示图像的高, w表示图像的宽, P1(x,y)与P2(x,y)分别 表示两个图像的对坐标 (x,y)像素值, S D表示相似距离; 若当前帧与前一关键帧的相似距离小于阈值DT时, 则丢弃当前帧, 继续计算下一帧与 当前关键帧的相似距离; 若当前帧与前一关键帧的相似距离大于阈值DT时, 则将当前帧记 录为关键帧; 以此类 推, 抽取出视频的所有关键帧。 3.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征 在于: 步骤3中使用改进的ResNet ‑50进行关键帧特征提取; 改进的ResNet ‑50引入位置注意 力机制、 自适应合并机制, 同时将ResNet ‑50原始的全连接层换成卷积层; 由训练好的改进 的ResNet ‑50对K+1份图像进行 特征提取, 输出一个特 征向量作为当前关键帧的特 征。 4.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征 在于: 步骤4中检索视频的关键帧特 征相似检索的具体方法为: A、 建立视频 特征库 给定一个原始视频数据库, 将原始视频进行排序, 针对每个视频建立一个对应的视频 索引VID; 随后经过由步骤1~3进行视频特征提取, 生成所有原始视频对应的所有关键帧特征向 量; 随后由Faiss将生成的特征向量建立对应的特征库, 对每一个特征向量建立一个索引 FID; B、 计算检索视频与视频 特征库中视频的关键帧特 征向量相似距离; 将检索视频的关键帧特征向量与Faiss特征库内各个视频关键帧的特征向量分别计算权 利 要 求 书 1/2 页 2 CN 114579805 A 2欧氏距离, 返回检索视频的各个关键帧对应匹配到的前W个相似特征向量的FID与相似距 离, 构成W个包含FID与相似距离的二元组A; 再根据FID找到对应视频的VID, 构成W个包含 VID与相似距离的二元组B, 然后将N个 检索视频的关键帧对应的N*W个二元组B汇总。 5.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征 在于: 步骤5中帧间结果后处 理的具体方法为: 将检索之后的相似视频结果作为帧间后处理的输入, 进行判断, 如果结果中的相似距 离小于阈值, 则保留作为矫正关键帧的输入; 如果SD大于阈值SD ‑T, 表明两个视频之间的相 似程度比较低, 则丢弃当前的结果; 随后建立左窗口和右窗口, 由左窗口投票选出前W个相似视频的VID_L(0, 1, 2 …W), 其 中, VID_L0表示最优相似视频, VID_L1表示次优, 以此类推VID_LW表示最后一个相似VID; L2 窗口同样投票选出 前W个相似视频VID_R(0, 1, 2 …W), 则当前帧匹配的结果VID_C如下: (1)如果VID_L0与VID_R0的结果相同, 则VID_C等于VID_L0; (2)如果VID_L0与VID_R0不相同, 则有: a)如果VID_C与VID_L0相同, 则VID_C等于VID_L0; b)如果VID_C与VID_R0相同, 则VID_C等于VID_R0; c)如果VID_C即不等于VID_L0, 也不等于VID_R0, 则按着相似级别VID_LW与VID_RW不断 迭代(1)与(2)过程, 直到确定VID_C的结果。 6.如权利要求5所述一种基于注意力机制的卷积神经网络相似视频检索方法, 其特征 在于: 引入分段函数来自适应解决视频 前后帧数小于左右窗口大小, 分段函数为: 其中, L表示窗口长度, x表示前后帧数长度。权 利 要 求 书 2/2 页 3 CN 114579805 A 3

.PDF文档 专利 一种基于注意力机制的卷积神经网络相似视频检索方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制的卷积神经网络相似视频检索方法 第 1 页 专利 一种基于注意力机制的卷积神经网络相似视频检索方法 第 2 页 专利 一种基于注意力机制的卷积神经网络相似视频检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。