专利基于Vision Transformer网络的弱监督实例分割方法、系统及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210877230.0 (22)申请日 2022.07.25 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人余晋刚　梁宇琦　吴仕科　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师李斌 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于Vision Transformer网络的弱监督实例分割方法、系统及介质 (57)摘要本发明公开了一种基于 V i s i o n Transformer网络的弱监督实例分割方法、系统及介质，方法为：获取带标签的自然图像数据集和待分割自然图像；构建弱监督实例分割模型；所述弱监督实例分割模型包括ViT多标签分类模块及ViT候选区域评分模块；所述ViT多标签分类模块包括Vision Transformer网络及候选区域伪标签生成器；所述ViT候选区域评分模块包括候选区域生成器及ViT候选区域特征生成器；初始化弱监督实例分割模型，构建损失函数并在带标签的自然图像数据集上进行迭代训练，优化损失函数得到训练好的弱监督实例分割模型；将待分割自然图像输入训练好的弱监督实例分割模型中，得到实例分割结果。本发明实现了对自然图像的实例分割，在保持较高性能的同时，加快推理速度，减少算力的消耗。权利要求书4页说明书11页附图3页 CN 115359254 A 2022.11.18 CN 115359254 A 1.基于Visi on Transformer网络的弱监督实例分割方法，其特征在于，包括下述步骤：获取带标签的自然图像数据集和待分割自然图像；构建弱监督实例分割模型；所述弱监督实例分割模型包括ViT多标签分类模块及ViT候选区域评分模块；所述ViT多标签分类模块包括Vision Transformer 网络及候选区域伪标签生成器；所述ViT候选区域评分模块包括候选区域生成器及ViT候选区域特征生成器；所述Vision Transformer网络用于获取多标签分类结果并产生类别激活图；所述候选区域伪标签生成器根据类别激活图，生成候选区域伪标签；所述候选区域生成器使用卷积导向边界算法及层次分割算法生成COB候选区域；所述ViT候选区域特征生成器采用 SegAlign方法生成COB候选区域的特征向量并经过全连接层，映射为COB候选区域的分类分数；初始化弱监督实例分割模型，构建损失函数并在带标签的自然图像数据集上进行迭代训练，优化损失函数得到训练好的弱监督实例分割模型；将待分割自然图像输入训练好的弱监督实例分割模型中，得到实例分割结果。 2.根据权利要求1所述的基于Vision Transformer网络的弱监督实例分割方法，其特征在于，所述带标签的自然图像数据集表示为：其中， Xi表示第i张带标签的自然图像， Yi表示第i张自然图像的标签；表示带标签自然图像数据集中的图像数， C表示标签数目；使用带标签的自然图像数据集对弱监督实例分割模型进行迭代训练前，将带标签自然图像数据集中的自然图像随机裁剪为设定尺寸大小的图像，并对图像进行随机水平翻转，再按通道进行标准化处理；所述初始化弱监督实例分割模型是指在大型图像数据集上对弱监督实例分割模型进行预训练，使用预训练完成后的模型参数作为初始化参数。 3.根据权利要求2所述的基于Vision Transformer网络的弱监督实例分割方法，其特征在于，所述损失函数包括Focal Loss损失函数和C ELoss损失函数；所述Focal Loss损失函数用于训练ViT 多标签分类模块，表示为：其中， y是真实标签， pt是预测概率， pt的定义如下：其中， p是未经任何激活函数处理的Visi on Transformer网络的输出值，获取方式为：将输入尺寸为W ×H的自然图像切分为w ×h个图像块，每个图像块包含P ×P个像素，其中w＝W/P， h＝W/P；将图像块输入Vision Transformer网络中输出特征矩阵，再经过卷积层和全局平均池化层，将特征矩阵映射为C维预测分数向量，即为p为Vision Transformer 网络的输出值；权　利　要　求　书 1/4 页 2 CN 115359254 A 2所述CELoss损失函数用于训练ViT候选区域评分模块，表示为：其中， yi,k表示第i个COB候选区域的真实标签k，共有K个标签值N个COB候选区域， p ′i,k 表示第i个COB候选区域预测为第k个标签值的概率。 4.根据权利要求3所述的基于Vision Transformer网络的弱监督实例分割方法，其特征在于，所述在带标签的自然图像数据集上进行迭代训练，具体为：使用Vision Transformer网络对带标签的自然图像数据集进行分类，得到多标签分类结果并产生类别激活图；将带标签的自然图像数据集输入候选区域生成器中，使用卷积导向边界算法及层次分割算法生成COB候选区域；根据类别激活图和COB候选区域，采用候选区域伪标签生成器得到候选区域伪标签；将COB候选区域输入ViT候选区域生成器中，采用SegAlign方法和全连接层生成COB候选区域的特征向量并经过全连接层，映射为COB候选区域的分类分数及类别；计算损失值并优化损失函数，迭代训练至函数收敛，得到训练好的弱监督实例分割模型。 5.根据权利要求4所述的基于Vision Transformer网络的弱监督实例分割方法，其特征在于，所述Vi sion Transformer网络包括卷积层、 L个级联的transformer blocks及全局平均池化层；所述t ransformer blocks包括线性变换层、多头自注意力层和多层感知块；所述得到多标签分类结果并产生类别激活图，具体为：输入带标签的自然图像数据集到Vision Transformer网络中，将带标签自然图像数据集中每一尺寸为W×H的自然图像切分成w ×h个图像块，经过卷积层进行卷积操作变为一维向量，得到N个块标记 t；为块标记添加类别标记 D表示每个块标记的维度；将所有添加类别标记的块标记送入L个级联的transformer blocks中进行特征提取，得到图像的特征矩阵Sc和L个注意力向量将图像的特征矩阵Sc输入卷积层和全局平均池化层后得到多标签分类结果；对L个注意力向量求均值并按照图像块在自然图像中的位置进行变形，获得注意力图，公式为： A′*＝Γw×h(A*) 其中， Γw×h(·)为变形函数；将注意力图和图像的特征矩阵按元素相乘，产生类别激活图TS ‑CAM，表示为元素相乘公式为： 6.根据权利要求5所述的基于Vision Transformer网络的弱监督实例分割方法，其特征在于，所述采用候选区域伪标签生成器得到的候选区域伪标签，具体为：权　利　要　求　书 2/4 页 3 CN 115359254 A 3

专利 基于Vision Transformer网络的弱监督实例分割方法、系统及介质

专利基于Vision Transformer网络的弱监督实例分割方法、系统及介质