专利一种多级语义融合的云和云影检测方法、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210699396.8 (22)申请日 2022.06.20 (71)申请人南京信息工程大学地址 210044 江苏省南京市浦口区宁六路 219号 (72)发明人夏旻　张恩伟　王慧琴　翁理国　 (74)专利代理机构北京同辉知识产权代理事务所(普通合伙) 11357 专利代理师王艳秋 (51)Int.Cl. G06V 10/774(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/12(2017.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种多级语义融合的云和云影检测方法、设备及存储介质 (57)摘要本发明公开了一种多级语义融合的云和云影检测方法、设备及存储介质，涉及图像处理技术领域，使用残差网络作为骨干网络对输入图片数据进行特征提取，整体采用编码器 ‑解码器的结构，在模型中我们提出了多支路残差上下文语义模块，多尺度卷积子通道注意力模块和特征融合上采样模块三个模块用于强化特征提取，细化云和云影边缘信息，增强模型的实际分割能力，相较于当前的方法检测云和云影更加准确，有效减少背景信息的干扰，增强对云层边缘以及薄云的检测能力，解决了大多数网络对于云影的检测精度不够高的技术问题，提高了对云和云影的检测精度，增强了算法的鲁棒性能。权利要求书4页说明书8页附图4页 CN 114943876 A 2022.08.26 CN 114943876 A 1.一种多级语义融合的云和云影检测方法，其特征在于，方法包括以下步骤：从谷歌地球上直接获取到的原始图片，大小为4800 ×2742像素，之后将原始图片进行统一裁剪，之后通过人工手动进行图片标签的标注，将图片中的云层标注为红色，云影标注为绿色，背景标注为黑色，使得标签与原图一一对应，再将所有图片以8： 2的比例划分为训练集和验证集；构建多级特征上下文语义融合网络以及三个所属模块，其中包括多支路残差上下文语义模块，多尺度卷积子通道注意力模块和特征融合上采样模块；将数据集中的图片进行数据增强操作，以0.2的概率对数据集中的图片进行随机旋转，水平翻转或者垂直翻转操作，再将图片和标签转换为张量作为输入序列，并将输入的批量大小设置为8，将初始学习率设置为0.001，衰减系数为0.98，每训练3次更新一次学习率，一共训练了20 0次，其中学习率计算公式如下： lrN＝lr0×βN/s 其中lrN为第N次训练的学习率大小， lr0为初始学习率， β 为衰减系数， s为更新间隔，损失函数选择交叉熵损失函数，计算公式如下：其中x是网络的输出张量， cl ass是真实标签，训练过程中使用Adam算法来作为优化器，从而得到训练后的多级特征上下文语义融合网络；输入一张彩色图片，将彩色图片经过训练后的多级特征上下文语义融合网络进行编码解码操作后输出得到云和云影的掩膜图像。 2.根据权利要求1所述的一种多级语义融合的云和云影检测方法，其特征在于，所述多支路残差上下文语义模块采用残差结构的形式，通过对输入张量进行一个捷径连接的方式实现恒等映射，既没有引入额外的参数也没有引入计算复杂性，且保留输入的部分原始参数；主体部分采用双支路的连接方式，左边支路是一个上下文语义支路，用于提取上下文的语义信息，并且融入了自注意力机制来关注特征图中有意义的信息；右边支路是一个强化特征提取支路，在使用3x3卷积块的同时引入了两个条状卷积，用于强化特征的提取，实现效果的提升；首先将输入张量经过一个1x1的卷积进行通道压缩，将通道压缩为原来的1/2，接着经过双支路输出后将输出张量进行融合，并与输入端构成残差连接后再经过一个双通道注意力模块，建模各个通道特征之间的重要性；多支路残差上下文语义模块中引入了上下文语义支路，将卷积与注意力结合起来，使用卷积提取特征图中的局部信息，首先对于输入特征，使用一个3 ×3的卷积对输入进行特征映射来获得具有局部上下文信息联系的key，标记为K，使用一个1 ×1的卷积对输入进行特征映射来获得v alue，标记为V，而query仍然采用原来的值，将query标记为Q，之后将key 与query进行concat 并且进行了两次连续的卷积操作后得到每个像素点的权重Attention map，标记为A： A＝Conv(Conv(concat[K,Q]) )权　利　要　求　书 1/4 页 2 CN 114943876 A 2其中Conv(.)表示卷积操作， concat(.)表示将多个张量进行通道维度上的连接，与传统的注意力机制不同的是，这里的A是由Q和局部上下文语义信息K 交互得到的，利用局部上下文语义信息之间的交互联系增强了注意力机制，之后再将这个A与 V进行相乘得到动态上下文信息X: X＝A*V 最后将具有局部上下文信息的K与具有全局上下文信息的X相加便得到左边支路的输出结果；右边支路引入了1 ×3和3×1这一组条状卷积块，通过分别使用3 ×3， 1×3和3×1这三种卷积核来替代单一的3 ×3卷积核进行计算，之后再将三个输出相加得到最终输出。 3.根据权利要求1所述的一种多级语义融合的云和云影检测方法，其特征在于，所述多尺度卷积子通道注意力模块用于提取深层通道互相之间的联系，通过分组卷积提取不同尺度的信息后经过改进的金字塔池化模块进一步提取深层语义信息，其中使用了条状池化来精确提取云和云影的边界信息，改善分割边界粗糙的问题，使用多尺度卷积来提取不同尺度的信息以此来提升模型的表达能力，在主支路中首先使用1 ×1， 3×3， 5×5， 7×7不同尺寸的卷积核提取深层特征中不同尺度的信息，这样更好的提取特征图中的信息，接着使用改进的金子塔池化层对特征图中云和云影的边缘信息进行细化提取，最后进行拼接输出，主干支路计算过程如下： Ci＝Conv(ki×ki)(x)i＝0,1,2,3 Ai1＝Avg(ki×1)(Ci)i＝0,1,2,3 Ai2＝Avg(1×ki)(Ci)i＝0,1,2,3 Ai＝Ai1+Ai2 Y＝DWConv(concat[A0,A1,A2,A3]) 其中Conv(.)表示不同尺度的卷积， ki表示卷积核大小， Av g(.)表示不同尺寸的条状池化， DWConv(.)表示深度可分离卷积， co ncat(.)表示拼接操作；对输入特征图进行通道上的Split，划分为不同的子通道，之后基于每个子通道上使用不同的卷积核进行卷积得到通道上的不同特征图，接着分别经过通道注意力提取不同尺度下的关注度，得到通道注意力向量，最后使用Softmax进一步对通道信息进行校准；其中通道注意力模块允许对每个通道的重要性进行评估，从而关注重要的信息，同样的与大多数通道注意力一样首先使用一个自适应全局平均池化层对特征图进行通道信息的提取，接着经过两层一维卷积层对全局信息进行压缩和重新校准，最后通过非线性激活函数Sigmo id计算权重，整个辅助支路的计算过程如下： Fi＝Conv(ki×ki)(x)i＝0,1,2,3 gi＝GAP(Fi) Si＝Sigmoid(W1σ(W0(gi))) Qi＝Softmax(Si) W＝concat(Q1,Q2,Q3,Q4) 其中σ 表示非线性激活函数ReLU，表示一维卷积操作，通过对通道的压缩再还原能够更有效的组合通道间的相互关系，有利于维度之间的信息交互；权　利　要　求　书 2/4 页 3 CN 114943876 A 3

专利 一种多级语义融合的云和云影检测方法、设备及存储介质

专利一种多级语义融合的云和云影检测方法、设备及存储介质