(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211304367.3
(22)申请日 2022.10.24
(71)申请人 西安交通大 学
地址 710048 陕西省西安市碑林区咸宁西
路28号
(72)发明人 杨树明 李传祥 张国锋 胡鹏宇
邓惠文 段宇 瞿兴
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 姚咏华
(51)Int.Cl.
G06V 10/50(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/77(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于窗口掩码策略的混合卷积 -变压器架构
及自监督方法
(57)摘要
本发明公开了一种基于窗口掩码策略的混
合卷积‑变压器架构及自监督方法, 使用窗口掩
码策略将图像划分为可见图像面片和掩码图像
面片, 将可见图像面片重组输入到设计的兼顾效
率和性能的混合卷积 ‑变压器金字塔主干网络中
进行特征学习, 将不同尺度的特征通过多尺度融
合模块和特征对齐模块分别进行融合和对齐, 并
将其于可学习的掩码特征向量进行拼接和对齐,
作为轻量级解码器的输入进行图像重建任务, 预
测掩码图像面片, 在标注数据有限的情况下可以
利用大量工业无标签数据进行预训练, 进一步提
升监督学习任务的性能, 大大降低了标注成本和
时间成本。 本发 明适合于具有实时性和高精度等
硬性要求的工业检测场景。
权利要求书2页 说明书7页 附图2页
CN 115496919 A
2022.12.20
CN 115496919 A
1.一种基于窗口掩码策略的混合卷积 ‑变压器架构的自监 督方法, 其特 征在于, 包括:
对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢 复, 获得分辨率为原
图一半的重组图像;
基于混合卷积 ‑变压器金字塔网络的编码器进行阶段划分, 分别将输入特征重组图像
依次等比缩小, 对重组图像进行局部特 征和全局特 征充分融合;
将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合, 融
合后的特 征图像经 过对齐, 作为 解码器的输入;
基于混合卷积 ‑变压器金字塔网络的解码器将融合并对齐后的图像特征维度映射到与
解码器输入图像特征维度相同的数目, 通过视觉变压器模块对解码 器输入图像进 行图像重
建, 求解基础网络的输出 特征和原图之间的均方损失函数;
利用损失函数公式计算混合卷积 ‑变压器金字塔网络总误差, 然后通过误差反向传播
以及随机梯度下降法对网络参数进行更新, 不断迭代直至损失函数收敛, 完成自监督学习
整体训练过程。
2.根据权利要求1所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复, 包括输入三
通道图像, 将图像划分为等大的图像面片, 并将所有面片 重组为不同的窗口, 提取出每一个
窗口内的可 见面片, 将其重组为 一张图像作为编码器的输入。
3.根据权利要求1所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 编码器包 含卷积先验 模块、 大核卷积模块和变压器 ‑卷积融合模块。
4.根据权利要求3所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 基于 混合卷积 ‑变压器金字塔网络的编 码器进行阶段划分, 编 码器被划分为四个
阶段:
卷积先验 模块位于混合卷积 ‑变压器金字塔网络前端;
第一、 第二阶段, 分别由下采样模块和大核卷积模块构成;
第三、 第四阶段, 分别由下采样模块和变压器 ‑卷积融合模块构成;
通过四个阶段分别将输入特 征图缩小。
5.根据权利要求3所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 卷积先验 模块包括7 ×7卷积块和两个3 ×3卷积块。
6.根据权利要求3所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 大核卷积模块包括7 ×7深度卷积块和两个线性层。
7.根据权利要求4所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 下采样模块由卷积核 大小为3, 步长为2, 补充边界为 1的卷积块组成, 将图像大小
缩减为原来的1/2, 并将通道增 加一倍, 同时包 含有归一 化层。
8.根据权利要求3所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 变压器 ‑卷积融合模块以垂 直的方式堆叠自我注 意模块和大核 卷积模块, 实现局
部特征和全局特征 的充分融合; 自我注意模块包括自我注意力模块、 残差模块和多层感知
机模块。
9.根据权利要求4所述的基于窗口掩码策略的混合卷积 ‑变压器架构的自监督方法, 其
特征在于, 将局部特征和全局特征融合后的不同尺度的图像特征在同一 维度进行多尺度融权 利 要 求 书 1/2 页
2
CN 115496919 A
2合, 利用下采样模块、 线性层以及上采样模块将第二、 三、 四阶段的特征图输出到同一维度
进行多尺度融合。
10.一种权利要求1 ‑9任一项所述方法的基于窗口掩码策略的混合卷积 ‑变压器架构,
其特征在于, 包括: 编码器和解码器;
编码器包括卷积先验 模块、 大核卷积模块、 下采样模块和变压器 ‑卷积融合模块, 其中:
卷积先验模块, 卷积先验模块在混合卷积 ‑变压器金字塔网络开端, 利用含有7 ×7卷积
核的重叠卷积提升感受野, 增 加特征交互;
下采样模块, 由具有卷积核的卷积块组成, 将图像大小缩减; 对重组后的特征图进行归
一化;
大核卷积模块, 与下采样模块分别组成编码器的前两个阶段, 利用7 ×7的大卷积核提
升感受野; 采用深度卷积操作, 降低计算量, 并使用两个线性层 对不同通道的特征信息进 行
交互;
变压器‑卷积融合模块, 与下采样模块分别组成编码器的后两个阶段, 变压器 ‑卷积融
合模块包括深度卷积和两个线性层, 采用7 ×7的卷积操作提升感受野, 以垂直的方式堆叠
自我注意模块和大核卷积模块, 实现局部特 征和全局特 征的充分融合;
上采样模块, 包括线性层和像素反卷积模块; 使用线性层扩大特征通道维度, 使用像素
反卷积模块上采样到与解码器输入相同的维度;
解码器包括变压器模块, 用于将融合并对齐后的图像特征维度映射到与解码器输入图
像特征维度相同的数目, 通过视觉变压器模块对解码器输入图像进行图像重建, 求解基础
网络的输出 特征和原图之间的均方损失函数。权 利 要 求 书 2/2 页
3
CN 115496919 A
3
专利 基于窗口掩码策略的混合卷积-变压器架构及自监督方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:18上传分享