专利基于Transformer的在线更新目标跟踪方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210751307.X (22)申请日 2022.06.29 (71)申请人齐鲁工业大学地址 250353 山东省济南市长清区大学路 3501号 (72)发明人刘笑含　李爱民　刘德琦　程梦凡　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师李琳 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/26(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Transformer的在线更新目标跟踪方法及系统 (57)摘要本发明属于目标跟踪领域，提供了基于 Transformer的在线更新目标跟踪方法及系统，该方法包括采用权重共享的Twi ns作为骨干网络对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；引入在线更新模块，将置信度超过阈值模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合，得到对应的融合特征图；采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。权利要求书2页说明书8页附图4页 CN 114998601 A 2022.09.02 CN 114998601 A 1.基于Transformer的在线更新目标跟踪方法，其特征在于，包括如下步骤：获取模板图像和搜索图像；采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；引入在线更新模块，将置信度超过阈值的模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合，得到对应的融合特征图；采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。 2.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征，具体包括：利用块分割模型将模板图像和搜索图像分割为不重叠的块；将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取，包括：采用局部分组注意力将特征图分割开，划分为多个子窗口，将其映射至对应的子特征图上；从全局对分组注意力结果进行融合，采用全局子采样注意力将各个子特征图展开恢复原形。 3.如权利要求2所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述在采用局部分组注意力将特征图分割开，划分为多个子窗口后，将每一个窗口提取一个降维后的低维特征作为各个窗口的表征，基于该表征再和各个窗口进行交互。 4.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合中，具体包括：分别将模板图像特征、更新模板特征和融合模板图像特征折叠成一维向量输入至编码器中，采用多头注意力机制来细化每个元素的特征嵌入，对每一个独立的头计算注意力，将注意力机制扩展到多个头中并行处理得到解码后的模板图像特征、更新模板特征和融合模板图像特征；采用多头交叉注意力将编码器输出的模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合。 5.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用多模板策略，将对应的融合特征图映射至预测头得到对应特征图的分类响应图和边界框回归图，每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支，头部对每个向量进行预测，得到前景/背景分类结果以及相对于搜索的归一化坐标区域大小。 6.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述 Transformer 跟踪器的总损失函数由三部分组成： Lfinal＝Lbasic+Lupdate+Ltotal权　利　要　求　书 1/2 页 2 CN 114998601 A 2第一部分为匹配搜索图像和模板图像，得到一个基本的损失函数Lbasic，可以使网络具有基本的跟踪能力，第二部分为更新损失Lupdate，由于更新图像也可以被认为是目标模板，由于采样时间的差异，它可以提供与模板图像互补的数据，第三部分为整体损失Ltotal，将模板图像和更新图像进行融合来预测对象的状态。 7.基于Transformer的在线更新目标跟踪系统，其特征在于，包括：数据获取模块，用于获取模板图像和搜索图像；特征提取模块，用于采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；在线更新模块，用于引入在线更新模块，将置信度超过阈值模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征其与模板图像特征进行互补，得到融合模板图像特征；特征融合模块，用于基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合，得到对应的融合特征图；目标跟踪模块，用于采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。 8.如权利要求7所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征，具体包括：利用块分割模型将模板图像和搜索图像分割为不重叠的块；将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取，包括：采用局部分组注意力将特征图分割开，划分为多个子窗口，将其映射至对应的子特征图上；从全局对分组注意力结果进行融合，采用全局子采样注意力将各个子特征图展开恢复原形。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑6中任一项所述的基于Tr ansformer的在线更新目标跟踪方法中的步骤。 10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑6中任一项所述的基于Transformer的在线更新目标跟踪方法中的步骤。权　利　要　求　书 2/2 页 3 CN 114998601 A 3

专利 基于Transformer的在线更新目标跟踪方法及系统

专利基于Transformer的在线更新目标跟踪方法及系统