全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210751307.X (22)申请日 2022.06.29 (71)申请人 齐鲁工业大学 地址 250353 山东省济南市长清区大 学路 3501号 (72)发明人 刘笑含 李爱民 刘德琦 程梦凡  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/26(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Transformer的在线更新目标跟踪方法 及系统 (57)摘要 本发明属于目标跟踪领域, 提供了基于 Transformer的在线更新目标跟踪方法及系统, 该方法包括采用权重共享的Twi  ns作为骨干网 络对模板图像和搜索图像进行特征提取得到模 板图像特征和搜索图像特征; 引入在线更新模 块, 将置信度超过阈值模板作为更新模板, 其对 应的特征作为更新模板特征,并将更新模板特征 与模板图像特征进行互补, 得到融合模板图像特 征; 基于编码器和解码器, 分别将模板图像特征、 更新模板特征和 融合模板图像特征分别和搜索 图像特征进行融合, 得到对应的融合特征图; 采 用多模板策略将对应的融合特征图映射至预测 头, 同时得到对应分支的预测分数, 将预测分数 最高的分支对应的边界框作为跟踪边框进行目 标跟踪。 权利要求书2页 说明书8页 附图4页 CN 114998601 A 2022.09.02 CN 114998601 A 1.基于Transformer的在线更新目标跟踪方法, 其特 征在于, 包括如下步骤: 获取模板图像和搜索图像; 采用权重共享的Twins作为骨干网络, 利用三层金字塔结构对模板图像和搜索图像进 行特征提取得到模板图像特 征和搜索图像特 征; 引入在线更新模块, 将置信度超过阈值的模板作为更新模板, 其对应的特征作为更新 模板特征,并将更新模板特 征与模板图像特 征进行互补, 得到融合模板图像特 征; 基于编码器和解码器, 分别将模板 图像特征、 更新模板特征和融合模板 图像特征分别 和搜索图像特 征进行融合, 得到对应的融合特 征图; 采用多模板策略将对应的融合特征图映射至预测头, 同时得到对应分支 的预测分数, 将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。 2.如权利要求1所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 采用权重共享的Twins作为骨干网络, 利用三层金字塔结构对模板图像和搜索图像进行特 征提取得到模板图像特 征和搜索图像特 征, 具体包括: 利用块分割模型将模板图像和搜索图像分割为 不重叠的块; 将分割得到的块采用局部注意力和全局注意力交替的机制进行 特征提取, 包括: 采用局部分组注意力将特征图分割开, 划分为多个子窗口, 将其映射至对应的子特征 图上; 从全局对分组注意力结果进行融合, 采用全局子采样注意力将各个子特征图展开恢 复 原形。 3.如权利要求2所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 在采用局部分组注意力将特征图分割开, 划分为多个子窗口后, 将每一个窗口提取一个降 维后的低维特 征作为各个窗口 的表征, 基于该表征 再和各个窗口进行交 互。 4.如权利要求1所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 基于编码器和 解码器, 分别将模板图像特征、 更新模板特征和融合模板图像特征分别和搜 索特征进行融合中, 具体包括: 分别将模板图像特征、 更新模板特征和融合模板图像特征折叠成一维向量输入至编码 器中, 采用多头注 意力机制来细化每个元素的特征嵌入, 对每一个独立的头计算注意力, 将 注意力机制扩展到多个头中并行处理得到解码后的模板图像特征、 更新模板特征和融合模 板图像特 征; 采用多头交叉注意力将编码器输出的模板图像特征、 更新模板特征和融合模板图像特 征分别和搜索特 征进行融合。 5.如权利要求1所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 采用多模板策略, 将对应的融合特征图映射至预测头得到对应特征图的分类响应图和边界 框回归图, 每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分 支, 头部对每个向量进 行预测, 得到前景/背景分类结果以及相对于搜索的归一化坐标区域 大小。 6.如权利要求1所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 Transformer 跟踪器的总损失函数由三部分组成: Lfinal=Lbasic+Lupdate+Ltotal权 利 要 求 书 1/2 页 2 CN 114998601 A 2第一部分为匹配搜索图像和模板图像, 得到一个基本的损失函数Lbasic, 可以使网络具 有基本的跟踪能力, 第二部分为更新损失Lupdate, 由于更新图像也可以被认为是目标模板, 由于采样时间的差异, 它可以提 供与模板图像互补的数据, 第三部分为整体损失Ltotal, 将模 板图像和更新图像进行融合 来预测对象的状态。 7.基于Transformer的在线更新目标跟踪系统, 其特 征在于, 包括: 数据获取模块, 用于获取模板图像和搜索图像; 特征提取模块, 用于采用权重共享的Twins作为骨干 网络, 利用三层金字塔结构对模板 图像和搜索图像进行 特征提取得到模板图像特 征和搜索图像特 征; 在线更新模块, 用于引入在线更新模块, 将置信度超过阈值模板作为更新模板, 其对应 的特征作为更新模板特征,并将更新模板特征其与模板图像特征进行互补, 得到融合模板 图像特征; 特征融合模块, 用于基于编码器和解码器, 分别将模板图像特征、 更新模板特征和融合 模板图像特 征分别和搜索特 征进行融合, 得到对应的融合特 征图; 目标跟踪模块, 用于采用多模板策略将对应的融合特征图映射至预测头, 同时得到对 应分支的预测分数, 将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。 8.如权利要求7所述的基于Transformer的在线更新目标跟踪方法, 其特征在于, 所述 采用权重共享的Twins作为骨干网络, 利用三层金字塔结构对模板图像和搜索图像进行特 征提取得到模板图像特 征和搜索图像特 征, 具体包括: 利用块分割模型将模板图像和搜索图像分割为 不重叠的块; 将分割得到的块采用局部注意力和全局注意力交替的机制进行 特征提取, 包括: 采用局部分组注意力将特征图分割开, 划分为多个子窗口, 将其映射至对应的子特征 图上; 从全局对分组注意力结果进行融合, 采用全局子采样注意力将各个子特征图展开恢 复 原形。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑6中任一项所述的基于Tr ansformer的在线更新目标跟踪方法中的 步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑6中任一项 所述的基 于Transformer的在线更新目标跟踪方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114998601 A 3

.PDF文档 专利 基于Transformer的在线更新目标跟踪方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer的在线更新目标跟踪方法及系统 第 1 页 专利 基于Transformer的在线更新目标跟踪方法及系统 第 2 页 专利 基于Transformer的在线更新目标跟踪方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。