全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210877230.0 (22)申请日 2022.07.25 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 余晋刚 梁宇琦 吴仕科  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 李斌 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于Vision Transformer网络的弱监督实 例分割方法、 系统及 介质 (57)摘要 本 发 明 公 开 了 一 种 基 于 V i s i o n   Transformer网络的弱监督实例分割方法、 系统 及介质, 方法为: 获取带标签的自然 图像数据集 和待分割自然 图像; 构建弱监督实例分割模型; 所述弱监督实例分割模型包括ViT多标签分类模 块及ViT候选区域评分模 块; 所述ViT多标签分类 模块包括Vision  Transformer网络及候选区域 伪标签生成器; 所述ViT候选区域评分模块包括 候选区域生成器及ViT候选区域特征生成器; 初 始化弱监督实例分割模型, 构建损失函数并在带 标签的自然图像数据集上进行迭代训练, 优化损 失函数得到训练好的弱监督实例分割模型; 将待 分割自然图像输入训练好的弱监督实例分割模 型中, 得到实例分割结果。 本发明实现了对自然 图像的实例分割, 在保持较高性能的同时, 加快 推理速度, 减少算力的消耗。 权利要求书4页 说明书11页 附图3页 CN 115359254 A 2022.11.18 CN 115359254 A 1.基于Visi on Transformer网络的弱监 督实例分割方法, 其特 征在于, 包括下述 步骤: 获取带标签的自然图像数据集和待分割自然图像; 构建弱监督实例分割模型; 所述弱监督实例分割模型包括ViT多标签分类模块及ViT候 选区域评分模块; 所述ViT多标签分类模块包括Vision  Transformer 网络及候选区域伪标 签生成器; 所述ViT候选区域评分模块包括 候选区域 生成器及ViT候选区域特 征生成器; 所述Vision  Transformer网络用于获取多标签分类结果并产 生类别激活图; 所述候选 区域伪标签生成器根据类别激活图, 生成候选区域伪标签; 所述候选区域生成器使用卷积 导向边界算法及层次分割算法生成COB候选区域; 所述ViT候选区域特征生成器采用 SegAlign方法生 成COB候选区域的特征向量并经过全连接层, 映射为COB候选区域的分类 分 数; 初始化弱监督实例分割 模型, 构建损失函数并在带标签的自然图像数据集上进行迭代 训练, 优化损失函数 得到训练好的弱监 督实例分割模型; 将待分割自然图像输入训练好的弱监 督实例分割模型中, 得到实例分割结果。 2.根据权利要求1所述的基于Vision  Transformer网络的弱监督实例分割方法, 其特 征在于, 所述带 标签的自然图像数据集表示 为: 其中, Xi表示第i张带标签的自然图像, Yi表示第i张自然图像的标签; 表示带标签自 然图像数据集中的图像数, C表示标签数目; 使用带标签的自然图像数据集对弱监督实例分割 模型进行迭代训练前, 将带标签自然 图像数据集中的自然图像随机裁剪为设定尺寸大小的图像, 并对图像进行随机水平翻转, 再按通道进行 标准化处理; 所述初始化弱监督实例分割模型是指在大型图像数据集上对弱监督实例分割模型进 行预训练, 使用预训练完成后的模型参数作为初始化 参数。 3.根据权利要求2所述的基于Vision  Transformer网络的弱监督实例分割方法, 其特 征在于, 所述损失函数包括Focal  Loss损失函数和C ELoss损失函数; 所述Focal  Loss损失函数用于训练ViT 多标签分类模块, 表示 为: 其中, y是真实标签, pt是预测概率, pt的定义如下: 其中, p是 未经任何激活函数处 理的Visi on Transformer网络的输出值, 获取 方式为: 将输入尺寸为W ×H的自然图像切分为w ×h个图像块, 每个图像块包含P ×P个像素, 其 中w=W/P, h=W/P; 将图像块输入Vision  Transformer网络中输出特征矩阵, 再经过卷积层 和全局平均池化层, 将特征矩阵映射为C维预测分数 向量, 即为p为Vision  Transformer 网 络的输出值;权 利 要 求 书 1/4 页 2 CN 115359254 A 2所述CELoss损失函数用于训练ViT候选区域评分模块, 表示 为: 其中, yi,k表示第i个COB候选区域 的真实标签k, 共有K个标签值N个COB候选区域, p ′i,k 表示第i个COB候选区域预测为第k个标签值的概 率。 4.根据权利要求3所述的基于Vision  Transformer网络的弱监督实例分割方法, 其特 征在于, 所述在带 标签的自然图像数据集上进行迭代训练, 具体为: 使用Vision  Transformer网络对带标签的自然图像数据 集进行分类, 得到多标签分类 结果并产生类别激活图; 将带标签的自然图像数据集输入候选区域生成器中, 使用卷积导向边界算法及层次分 割算法生成COB候选区域; 根据类别激活图和COB候选区域, 采用候选区域伪标签生成器得到候选区域伪标签; 将COB候选区域输入ViT候选区域生成器中, 采用SegAlign方法和全连接层生成COB候 选区域的特 征向量并经 过全连接层, 映射 为COB候选区域的分类分数及类别; 计算损失值并优化损 失函数, 迭代训练至函数收敛, 得到训练好的弱监督实例分割模 型。 5.根据权利要求4所述的基于Vision  Transformer网络的弱监督实例分割方法, 其特 征在于, 所述Vi sion Transformer网络包括卷积层、 L个级联的transformer  blocks及全局 平均池化层; 所述t ransformer  blocks包括线性变换层、 多头自注意力层和多层感知块; 所述得到多标签分类结果并产生类别激活图, 具体为: 输入带标签的自然图像数据集到Vision  Transformer网络中, 将带标签自然图像数据 集中每一尺 寸为W×H的自然图像切分成w ×h个图像块, 经过卷积层 进行卷积操作变为一 维 向量, 得到N个块标记 t; 为块标记添加类别标记 D表示每个块标记的维度; 将所有添加类别标记的块标记送入L个级联的transformer  blocks中进行特征提取, 得到图像的特 征矩阵Sc和L个注意力向量 将图像的特 征矩阵Sc输入卷积层和全局平均池化层后得到多标签分类结果; 对L个注意力向量 求均值并按照图像块在自然图像中的位置进行变形, 获得注意力 图, 公式为: A′*=Γw×h(A*) 其中, Γw×h(·)为变形函数; 将注意力图和图像的特征矩阵按元素相乘, 产生类别激活图TS ‑CAM, 表示为 元 素相乘公式为: 6.根据权利要求5所述的基于Vision  Transformer网络的弱监督实例分割方法, 其特 征在于, 所述采用候选区域伪标签生成器得到的候选区域伪标签, 具体为:权 利 要 求 书 2/4 页 3 CN 115359254 A 3

.PDF文档 专利 基于Vision Transformer网络的弱监督实例分割方法、系统及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Vision Transformer网络的弱监督实例分割方法、系统及介质 第 1 页 专利 基于Vision Transformer网络的弱监督实例分割方法、系统及介质 第 2 页 专利 基于Vision Transformer网络的弱监督实例分割方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。