全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210399175.9 (22)申请日 2022.04.15 (71)申请人 北京化工大 学 地址 100029 北京市朝阳区北三环东路15 号 (72)发明人 王坤峰 陈阳 张书琴 陈思涵  (74)专利代理 机构 北京市恒有知识产权代理事 务所(普通 合伙) 11576 专利代理师 郭文浩 尹文会 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于Transformer全局与局部注意力交互的 目标检测方法 (57)摘要 本发明属于计算机视觉领域, 具体涉及了一 种基于Tran sformer全局与局部注意力交互的目 标检测方法, 旨在解决Transformer模型计算成 本高、 复杂度高、 全局和局部交互不充分, 导致目 标检测结果准确性和精度低的问题。 本发明包 括: 对待处理二维图像预处理; 以图像令牌为单 位进行窗口划分; 基于窗口做局部多头注意力计 算; 局部窗口下采样, 拼接为一个新的全局窗口 并做全局多头注意力计算; 进行全局和局部的交 互, 使全局信息的补充到局部信息; 进行图像令 牌合并获得多尺度特征后送入目标检测模块, 获 取待处理二维图像的感兴趣区域的类别及位置 坐标。 本发明具有较强的特征表达能力, 可以克 服复杂环 境下目标存在的巨大差异性, 具有较高 的处理速度, 并能获取 更精准的检测结果。 权利要求书3页 说明书9页 附图4页 CN 114743017 A 2022.07.12 CN 114743017 A 1.一种基于Transformer全局与局部注意力交互的目标检测方法, 其特征在于, 该目标 检测方法包括: 将待处理图像划分为4*4的图像令牌, 线性投影成高纬度向量, 并对投影的第一初始特 征图进行第一设定次数的全局 局部注意力特 征变换, 获得第一特 征图; 对所述第一特征图进行图像令牌合并, 并对合并的初始第 二特征图进行第 二设定次数 的全局局部注意力特 征变换, 获得第二特 征图; 对所述第二特征图进行图像令牌合并, 并对合并的初始第 三特征图进行第 三设定次数 的全局局部注意力特 征变换, 获得第三特 征图; 对所述第三特征图进行图像令牌合并, 并对合并的初始第四特征图进行第四设定次数 的全局局部注意力特 征变换, 获得第四特 征图; 将所述第二特征图、 所述第三特征图和所述第 四特征图的特征信息分别输入检测头, 获得目标检测结果。 2.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述图像令牌 合并, 其方法为: 将所述第一特征图/第二特征图/第三特征图的每相邻2*2个图像令牌合并为1个图像 令牌, 并通过线性投影层最终实现特征图的分辨率2倍下采样和特征维度2倍上采样, 获得 初始第二特 征图/初始第三特 征图/初始第四特 征图。 3.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述全局 局部注意力特 征变换, 其方法为: 对所述第 一初始特征图/第 二初始特征图/第 三初始特征图/第四初始特征图进行层归 一化处理; 将层归一化后的特征图以设定大小分割为不重叠的多个局部窗口, 并分别进行每一个 局部窗口 的多头自注意力计算, 获得局部特 征图; 将所述局部特征图分别与对应的初始特征图进行残差连接, 并分别进行下采样操作, 将下采样的图像令牌拼接为全局窗口, 进行全局窗口的多头自注意力计算, 获得全局特征 图; 进行所述局部窗口和所述全局窗口的跨尺度全局局部注意力 计算, 获得融入全局信 息 的局部特 征图; 进行所述融入全局信息的局部特征图的窗口合并、 层归一化以及多层感知机操作, 获 得第一特 征图/第二特 征图/第三特 征图/第四特 征图。 4.根据权利要求3所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述多头自注意力计算, 其表示 为: 其中, Q, K, V代表将特征图通过线性层使特征维度扩大3倍后拆分获取的查询矩阵、 键 值矩阵和值矩阵, 矩阵的每个张量代表窗口的像素特征, B为表征像素间的相对位置的相对 位置偏移矩阵, T代表矩阵转置, 代表关系矩阵, 代表注意力关系矩阵,权 利 要 求 书 1/3 页 2 CN 114743017 A 2Softmax为将一组注 意力系数转换为范围在[0,1]并且和为 1的概率分布的函数, d代表 通道 数; 局部多头自注意力计算将查询矩阵Q、 键值矩阵K和值矩阵V的通道数拆分为若干组, 每 组属于1个头, 每个头独立的进行自注意力计算, 并将各个头的结果进行横向拼接, 其表示 为: MultiHead(Q, K, V)=Co ncat(head1,…, headi,…, headh) 其中, h为局部多头自注意力计算中头的数目, 获取第一特征图的阶段, h=3, 随后获取 第二特征图、 第三特征图和第四特征图的阶段, h以2倍递增, headi, i∈[1, h]为第i组查询 矩阵Q、 键值矩阵K和值矩阵V的进行自注意力计算的结果, Co ncat为横向拼接 。 5.根据权利要求4所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述 跨尺度全局 局部注意力计算, 其表示 为: 其中, QL为局部窗口查询矩阵, 矩阵的每个 张量代表局部窗口的像素特征, KG, VG为全局 窗口键值矩阵和值矩阵, 矩阵的每 个张量代 表全局窗口 的像素特征; 全局局部多头自注意力计算将查询矩阵QL、 键值矩阵KG和值矩阵VG的通道数拆分为若 干组, 每组属于1个头, 每个头独立的进 行自注意力计算, 并将各个头的结果进 行横向拼接, 其表示为: GL‑MultiHead(QL, KG, VG) =Concat(headGL‑1,…,headcL‑i,…, headGL‑h) 其中, GL‑h为全局局部多头自注意力计算 中头的数目, 获取第一特征图的阶段, GL ‑h= 3, 随后获取第二特征图、 第三特征图和第四特征图的阶段, GL ‑h以2倍递增, headGL‑i, GL‑i ∈[GL‑1, GL‑h]为第i组查询矩阵QL、 键值矩阵KG和值矩阵VG的进行自注意力计算的结果, Concat为横向拼接 。 6.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述第一设定次数为2, 第二设定次数为6, 第三设定次数为12, 第四设定次数为 1。 7.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法, 其 特征在于, 所述目标检测结果包括待处 理图像感兴趣区域的边界框、 目标类别及位置坐标。 8.一种基于Transformer全局与局部注意力交互的目标检测系统, 其特征在于, 该目标 检测系统包括预 处理模块、 阶段一模块、 阶段二模块、 阶段三模块、 阶段四模块、 特征融合及 目标检测模块; 所述预处理模块, 配置为将待处理图像划分为4*4的图像令牌, 线性投影成高纬度向 量, 获得第一初始特 征图; 所述阶段一模块, 配置为对所述第 一初始特征图进行第 一设定次数的全局局部注意力 特征变换, 获得第一特 征图; 所述阶段二模块, 配置为对所述第一特征图进行图像令牌合并, 并对合并的初始第二 特征图进行第二设定次数的全局 局部注意力特 征变换, 获得第二特 征图;权 利 要 求 书 2/3 页 3 CN 114743017 A 3

.PDF文档 专利 基于Transformer全局与局部注意力交互的目标检测方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer全局与局部注意力交互的目标检测方法 第 1 页 专利 基于Transformer全局与局部注意力交互的目标检测方法 第 2 页 专利 基于Transformer全局与局部注意力交互的目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:36:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。