(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210699396.8
(22)申请日 2022.06.20
(71)申请人 南京信息 工程大学
地址 210044 江苏省南京市浦口区宁六路
219号
(72)发明人 夏旻 张恩伟 王慧琴 翁理国
(74)专利代理 机构 北京同辉知识产权代理事务
所(普通合伙) 11357
专利代理师 王艳秋
(51)Int.Cl.
G06V 10/774(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 7/12(2017.01)
G06V 10/77(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种多级语义融合的云和云影检测方法、 设
备及存储介质
(57)摘要
本发明公开了一种多级语义融合的云和云
影检测方法、 设备及存储介质, 涉及图像处理技
术领域, 使用残差网络作为骨干网络对输入图片
数据进行特征提取, 整体采用编码器 ‑解码器的
结构, 在模 型中我们提出了多支路残差上下文语
义模块, 多尺度卷积子通道注 意力模块和特征融
合上采样模块三个模块用于强化特征提取, 细化
云和云影边缘信息, 增强模型的实际分割能力,
相较于当前的方法检测云和云影更加准确, 有效
减少背景信息的干扰, 增强对云层边缘以及薄云
的检测能力, 解决了大多数网络对于云影的检测
精度不够高的技术问题, 提高了对云和云影的检
测精度, 增强了算法的鲁棒 性能。
权利要求书4页 说明书8页 附图4页
CN 114943876 A
2022.08.26
CN 114943876 A
1.一种多 级语义融合的云和云影 检测方法, 其特 征在于, 方法包括以下步骤:
从谷歌地球上直接获取到的原始图片, 大小为4800 ×2742像素, 之后将原始图片进行
统一裁剪, 之后通过人工手动进 行图片标签的标注, 将图片中的云层标注为红色, 云影标注
为绿色, 背景标注为黑色, 使得标签与原图一一对应, 再将所有图片以8: 2的比例划分为训
练集和验证集;
构建多级特征上下文语义融合网络以及三个所属模块, 其中包括多支路残差上下文语
义模块, 多尺度卷积子通道 注意力模块和特 征融合上采样模块;
将数据集中的图片进行数据增强操作, 以0.2的概率对数据集中的图片进行随机旋转,
水平翻转或者垂直翻转操作, 再将图片和标签转换为张量作为输入序列, 并将输入的批量
大小设置为8, 将初始学习率设置为0.001, 衰减系数为0.98, 每训练3次更新一次学习率, 一
共训练了20 0次, 其中学习率计算公式如下:
lrN=lr0×βN/s
其中lrN为第N次训练的学习率大小, lr0为初始学习率, β 为衰减系 数, s为更新间隔, 损
失函数选择交叉熵损失函数, 计算公式如下:
其中x是网络的输出张量, cl ass是真实标签, 训练过程中使用Adam算法来作为优化器,
从而得到训练后的多 级特征上下文语义融合网络;
输入一张彩色图片, 将彩色图片经过训练后的多级特征上下文语义融合网络进行编码
解码操作后输出 得到云和云影的掩膜图像。
2.根据权利要求1所述的一种 多级语义融合的云和云影检测方法, 其特征在于, 所述多
支路残差上下文语义模块采用残差结构的形式, 通过对输入张量进行一个捷径连接的方式
实现恒等映射, 既没有引入额外的参数也没有引入计算复杂性, 且保留输入的部分原始参
数;
主体部分采用 双支路的连接方式, 左边支路是一个上下文语义支路, 用于提取上下文
的语义信息, 并且融入了 自注意力机制来关注特征图中有意义的信息; 右边支路是一个强
化特征提取支路, 在使用3x3卷积块的同时引入了两个条状卷积, 用于强化特征的提取, 实
现效果的提升;
首先将输入张量经过一个1x1的卷积进行通道压缩, 将通道压缩为原来的1/2, 接着经
过双支路输出后将输出张量进 行融合, 并与输入端构成残差连接后再经过一个双通道注意
力模块, 建模各个通道特 征之间的重要性;
多支路残差上下文语义模块中引入了上下文语义支路, 将卷积与注意力结合起来, 使
用卷积提取特征图中的局部信息, 首先对于输入特征, 使用一个3 ×3的卷积对输入进行特
征映射来获得具有局部上下文信息联系的key, 标记为K, 使用一个1 ×1的卷积对输入进行
特征映射来获得v alue, 标记为V, 而query仍然采用原来的值, 将query标记为Q, 之后将key
与query进行concat 并且进行了两 次连续的卷积操作后 得到每个像素点的权重Attention
map, 标记为A:
A=Conv(Conv(concat[K,Q]) )权 利 要 求 书 1/4 页
2
CN 114943876 A
2其中Conv(.)表示卷积操作, concat(.)表示将多个张量进行通道维度上的连接, 与传
统的注意力机制不同的是, 这里的A是由Q和局部上下文语义信息K 交互得到的, 利用局部上
下文语义信息 之间的交互联系增强了注意力机制, 之后再将这个A与 V进行相乘得到动态上
下文信息X:
X=A*V
最后将具有局部上下文信息的K与具有全局上下文信息的X相加便得到左边支路的输
出结果;
右边支路引入了1 ×3和3×1这一组条状卷积块, 通过分别使用3 ×3, 1×3和3×1这三
种卷积核来 替代单一的3 ×3卷积核进行计算, 之后再将三个输出相加得到最终输出。
3.根据权利要求1所述的一种 多级语义融合的云和云影检测方法, 其特征在于, 所述多
尺度卷积子通道注意力模块用于提取深层通道互相之 间的联系, 通过分组卷积提取不同尺
度的信息后经过改进的金字塔池化模块进一步提取深层语义信息, 其中使用了条状池化来
精确提取云和云影的边界信息, 改善分割边界粗糙的问题, 使用多尺度卷积来提取不同尺
度的信息以此来提升模型的表达能力, 在主支路中首先使用1 ×1, 3×3, 5×5, 7×7不同尺
寸的卷积核提取深层特征中不同尺度的信息, 这样更好的提取特征图中的信息, 接着使用
改进的金子塔池化层对特征图中云和云影的边缘信息进行细化提取, 最后进行拼接输出,
主干支路计算过程如下:
Ci=Conv(ki×ki)(x)i=0,1,2,3
Ai1=Avg(ki×1)(Ci)i=0,1,2,3
Ai2=Avg(1×ki)(Ci)i=0,1,2,3
Ai=Ai1+Ai2
Y=DWConv(concat[A0,A1,A2,A3])
其中Conv(.)表示不同尺度的卷积, ki表示卷积核大小, Av g(.)表示不同尺寸的条状池
化, DWConv(.)表示深度可分离卷积, co ncat(.)表示 拼接操作;
对输入特征图进行通道上的Split, 划分为不同的子通道, 之后 基于每个子通道上使用
不同的卷积核进 行卷积得到通道上的不同特征图, 接着分别经过通道注意力提取不同尺度
下的关注度, 得到通道 注意力向量, 最后使用Softmax进一 步对通道信息进行 校准;
其中通道注意力模块允许对每个通道的重要性进行评估, 从而关注重要的信息, 同样
的与大多数通道注意力一样首先使用一个自适应全局平均池化层对特征图进行通道信息
的提取, 接着经过两层一维卷积层对全局信息进行压缩和重新校准, 最后通过非线性激活
函数Sigmo id计算权 重, 整个辅助支路的计算过程如下:
Fi=Conv(ki×ki)(x)i=0,1,2,3
gi=GAP(Fi)
Si=Sigmoid(W1σ(W0(gi)))
Qi=Softmax(Si)
W=concat(Q1,Q2,Q3,Q4)
其中σ 表示非线性激活函数ReLU,
表示一维卷积操作, 通过对通
道的压缩再还原能够更有效的组合 通道间的相互关系, 有利于维度之间的信息交 互;权 利 要 求 书 2/4 页
3
CN 114943876 A
3
专利 一种多级语义融合的云和云影检测方法、设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:27:33上传分享