专利基于Transformer全局与局部注意力交互的目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210399175.9 (22)申请日 2022.04.15 (71)申请人北京化工大学地址 100029 北京市朝阳区北三环东路15 号 (72)发明人王坤峰　陈阳　张书琴　陈思涵　 (74)专利代理机构北京市恒有知识产权代理事务所(普通合伙) 11576 专利代理师郭文浩　尹文会 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于Transformer全局与局部注意力交互的目标检测方法 (57)摘要本发明属于计算机视觉领域，具体涉及了一种基于Tran sformer全局与局部注意力交互的目标检测方法，旨在解决Transformer模型计算成本高、复杂度高、全局和局部交互不充分，导致目标检测结果准确性和精度低的问题。本发明包括：对待处理二维图像预处理；以图像令牌为单位进行窗口划分；基于窗口做局部多头注意力计算；局部窗口下采样，拼接为一个新的全局窗口并做全局多头注意力计算；进行全局和局部的交互，使全局信息的补充到局部信息；进行图像令牌合并获得多尺度特征后送入目标检测模块，获取待处理二维图像的感兴趣区域的类别及位置坐标。本发明具有较强的特征表达能力，可以克服复杂环境下目标存在的巨大差异性，具有较高的处理速度，并能获取更精准的检测结果。权利要求书3页说明书9页附图4页 CN 114743017 A 2022.07.12 CN 114743017 A 1.一种基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，该目标检测方法包括：将待处理图像划分为4*4的图像令牌，线性投影成高纬度向量，并对投影的第一初始特征图进行第一设定次数的全局局部注意力特征变换，获得第一特征图；对所述第一特征图进行图像令牌合并，并对合并的初始第二特征图进行第二设定次数的全局局部注意力特征变换，获得第二特征图；对所述第二特征图进行图像令牌合并，并对合并的初始第三特征图进行第三设定次数的全局局部注意力特征变换，获得第三特征图；对所述第三特征图进行图像令牌合并，并对合并的初始第四特征图进行第四设定次数的全局局部注意力特征变换，获得第四特征图；将所述第二特征图、所述第三特征图和所述第四特征图的特征信息分别输入检测头，获得目标检测结果。 2.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述图像令牌合并，其方法为：将所述第一特征图/第二特征图/第三特征图的每相邻2*2个图像令牌合并为1个图像令牌，并通过线性投影层最终实现特征图的分辨率2倍下采样和特征维度2倍上采样，获得初始第二特征图/初始第三特征图/初始第四特征图。 3.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述全局局部注意力特征变换，其方法为：对所述第一初始特征图/第二初始特征图/第三初始特征图/第四初始特征图进行层归一化处理；将层归一化后的特征图以设定大小分割为不重叠的多个局部窗口，并分别进行每一个局部窗口的多头自注意力计算，获得局部特征图；将所述局部特征图分别与对应的初始特征图进行残差连接，并分别进行下采样操作，将下采样的图像令牌拼接为全局窗口，进行全局窗口的多头自注意力计算，获得全局特征图；进行所述局部窗口和所述全局窗口的跨尺度全局局部注意力计算，获得融入全局信息的局部特征图；进行所述融入全局信息的局部特征图的窗口合并、层归一化以及多层感知机操作，获得第一特征图/第二特征图/第三特征图/第四特征图。 4.根据权利要求3所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述多头自注意力计算，其表示为：其中， Q， K， V代表将特征图通过线性层使特征维度扩大3倍后拆分获取的查询矩阵、键值矩阵和值矩阵，矩阵的每个张量代表窗口的像素特征， B为表征像素间的相对位置的相对位置偏移矩阵， T代表矩阵转置，代表关系矩阵，代表注意力关系矩阵，权　利　要　求　书 1/3 页 2 CN 114743017 A 2Softmax为将一组注意力系数转换为范围在[0,1]并且和为 1的概率分布的函数， d代表通道数；局部多头自注意力计算将查询矩阵Q、键值矩阵K和值矩阵V的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示为： MultiHead(Q， K， V)＝Co ncat(head1，…， headi，…， headh) 其中， h为局部多头自注意力计算中头的数目，获取第一特征图的阶段， h＝3，随后获取第二特征图、第三特征图和第四特征图的阶段， h以2倍递增， headi， i∈[1， h]为第i组查询矩阵Q、键值矩阵K和值矩阵V的进行自注意力计算的结果， Co ncat为横向拼接。 5.根据权利要求4所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述跨尺度全局局部注意力计算，其表示为：其中， QL为局部窗口查询矩阵，矩阵的每个张量代表局部窗口的像素特征， KG， VG为全局窗口键值矩阵和值矩阵，矩阵的每个张量代表全局窗口的像素特征；全局局部多头自注意力计算将查询矩阵QL、键值矩阵KG和值矩阵VG的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示为： GL‑MultiHead(QL， KG， VG) ＝Concat(headGL‑1，…,headcL‑i，…， headGL‑h) 其中， GL‑h为全局局部多头自注意力计算中头的数目，获取第一特征图的阶段， GL ‑h＝ 3，随后获取第二特征图、第三特征图和第四特征图的阶段， GL ‑h以2倍递增， headGL‑i， GL‑i ∈[GL‑1， GL‑h]为第i组查询矩阵QL、键值矩阵KG和值矩阵VG的进行自注意力计算的结果， Concat为横向拼接。 6.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述第一设定次数为2，第二设定次数为6，第三设定次数为12，第四设定次数为 1。 7.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述目标检测结果包括待处理图像感兴趣区域的边界框、目标类别及位置坐标。 8.一种基于Transformer全局与局部注意力交互的目标检测系统，其特征在于，该目标检测系统包括预处理模块、阶段一模块、阶段二模块、阶段三模块、阶段四模块、特征融合及目标检测模块；所述预处理模块，配置为将待处理图像划分为4*4的图像令牌，线性投影成高纬度向量，获得第一初始特征图；所述阶段一模块，配置为对所述第一初始特征图进行第一设定次数的全局局部注意力特征变换，获得第一特征图；所述阶段二模块，配置为对所述第一特征图进行图像令牌合并，并对合并的初始第二特征图进行第二设定次数的全局局部注意力特征变换，获得第二特征图；权　利　要　求　书 2/3 页 3 CN 114743017 A 3

专利 基于Transformer全局与局部注意力交互的目标检测方法

专利基于Transformer全局与局部注意力交互的目标检测方法