(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111657224.6
(22)申请日 2021.12.31
(71)申请人 湖南科技大 学
地址 411201 湖南省湘潭市雨湖区石码头2
号
(72)发明人 陈祖国 黄贺俊 陈超洋 卢明
吴亮红 张徐卓 唐志强
(74)专利代理 机构 湘潭市汇智专利事务所(普
通合伙) 43108
专利代理师 陈伟
(51)Int.Cl.
G06T 7/11(2017.01)
G06T 9/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
编解码结构结合注意力机制的图像分割模
型及其训练方法
(57)摘要
本发明公开了一种编解码结构结合注意力
机制的图像分割模型, 包括编码模块、 解码 模块、
编解码连接模块、 像素分类层; 编码模块包括多
个串接的编码单元, 解码模块包括多个与编码单
元一一对应的解码单元, 编解码连接模块用于连
接编码模块与解码模块, 像素分类层用于为每个
像素独立的产生类别概率, 得到图像分割结果。
本发明的图像分割模型结合SegNet在局部环境
信息进行建模的优势和Tran sformer在学习全局
语义关联上的优势, 通过加强全局语义关联以改
善SegNet在数据集较小时易过拟合的局限性, 同
时提升了网络分割性能。
权利要求书2页 说明书7页 附图3页
CN 114445420 A
2022.05.06
CN 114445420 A
1.一种编解码结构结合注意力机制的图像分割模型, 其特征在于, 所述图像分割模型
采用编解码结构, 包括编码模块、 解码模块、 编解码连接模块、 像素分类层;
所述编码模块包括若干个串联的编码单元, 除最后 一个编码单元外每个编码单元包括
依次连接的编码紧密块和最大池化块, 最后一个编码单元仅有编码 紧密块, 每个编码 紧密
块对当前编码单元 的输入进行特征提取, 得到对应的编码稠密输出; 所述编码稠密输出经
过最大池化块进行最大池化后得到当前编码单元的输出, 并将其作为下一编码单元的输
入; 所述最大池化 块进行最大池化时保留池化索引;
所述解码模块包括多个与 所述编码单元一一对应的解码单元, 除第 一个解码单元外每
个解码单元包括上采样块和 解码紧密块, 第一个解码单元仅有解码 紧密块, 每个解码 紧密
块对当前解码单元 的输入进行特征提取, 得到对应的解码稠密输出; 所述解码稠密输出经
过上采样块进行上采样得到当前解码单元 的输出, 并将其作为下一解码单元 的输入; 每个
所述上采样块以对应编码单元 的池化索引进行上采样, 上采样过程中, 将池化索引处的值
直接填回原处, 其余地方补0; 第一解码单元的输入为所述编解码连接模块的输出; 其余解
码单元的输入为上一 解码单元的输出 经过所述上采样块的上采样后得到;
所述编解码连接模块的输入端连接所述编码模块, 输出端连接所述解码模块, 对最后
一个编码单元 的输出进行特征提取后, 得到编解码连接模块的输出, 并将其输入至第一个
解码单元;
所述像素分类层连接解码模块的输出端, 像素分类层的输入为所述解码模块的输出,
所述像素分类层为每 个像素独立的产生类别概 率, 得到图像分割结果。
2.根据权利要求1所述的编 解码结构结合注意力 机制的图像分割 模型, 其特征在于, 所
述编码紧密块与解码紧密块的结构相同, 均采用紧密块; 所述紧密块包括若干个卷积层; 卷
积层用于对紧密块的输入进行 逐层提取; 每 个卷积层的输入为前一卷积层的输出;
所述卷积层, 包 含卷积操作、 归一 化和激活函数;
所述卷积 操作, 用于对卷积层的输入进行 特征提取;
所述归一 化, 用于对所述卷积层输出的分布归一 化;
所述激活函数, 用于在所述卷积层中来 为网络引入非线性变化。
3.根据权利要求1所述的编 解码结构结合注意力 机制的图像分割 模型, 其特征在于, 所
述编解码连接模块包括依次连接的线性投影块、 位置编码块、 若干个Transformer层和特征
映射块;
线性投影模块用于将编码模块的输出进行投影;
所述位置编码块用于对Transformer层的输入进行位置编码;
所述Transformer层的输入为所述编码模块的输出经过线性投影模块投影后与所述位
置编码块的位置信息相加后得到;
所述特征映射块用于对Transformer层的输出进行 特征映射以恢复投影前的结构;
所述Transformer层的输出经过所述特征映射块特征映射后作 为编解码连接模块的输
出。
4.根据权利要求3所述的编 解码结构结合注意力 机制的图像分割 模型, 其特征在于, 所
述Transformer层包括依次连接的多头自注意力层和前馈神经网络层, 每个多头自注意力
层前应用层归一化, 每个多头 自注意力层后应用残差连接, 每个前馈神经网络层前应用层权 利 要 求 书 1/2 页
2
CN 114445420 A
2归一化, 每个前馈神经网络层后应用残差连接;
所述多头自注意力层, 用于将模型分为多个头, 形成多个子空间;
所述前馈神经网络层包含两个全连接层, 第一个全连接层将特征维度变为4倍, 第二个
全连接层将特征维度恢复, 前馈神经网络层所包含的非线性激活函数均采用高斯误差线性
单元, 整个前馈神经网络层相当于一个多层感知机 。
5.一种用于权利要求1 ‑4中任一项所述的编 解码结构结合注意力 机制的图像分割模型
的训练方法, 其特 征在于, 包括:
(1)将图像样本数据集按照预设的比例划分为训练集、 验证集和 测试集;
(2)对图像分割模型权重进行初始化, 利用训练集对初始化后的图像分割模型进行迭
代训练, 不断更新模型的权 重, 得到最 新权重的图像分割模型;
(3)利用验证集对最新权重的图像分割模型进行验证, 继续更新图像分割模型的权重,
对已训练的权重进行调整, 直至模型收敛, 将此时的图像分割模型参数作为最终的模型参
数用于图像分割。
6.根据权利要求5所述的编解码结构结合注意力机制的图像分割模型的训练方法, 其
特征在于, 所述 步骤(2)中, 采用归一 化加随机初始化方法来初始化图像分割模型的权 重。
7.根据权利要求5所述的编解码结构结合注意力机制的图像分割模型的训练方法, 其
特征在于, 所述 步骤(2)中, 训练方法的损失函数Ldice表示为:
其中, N为图像像素点的个数, gi为第i个正确分割图像的像素值, ti为第i个训练出的图
像的像素值。
8.根据权利要求7所述的编解码结构结合注意力机制的图像分割模型的训练方法, 其
特征在于, 所述 步骤(2)中, 权 重更新规律表示为:
其中,
表示现在第k层的权重,
表示上一次训练时第k层的权重, η表示学习率,
表示损失函数对第k层权 重求偏导。权 利 要 求 书 2/2 页
3
CN 114445420 A
3
专利 编解码结构结合注意力机制的图像分割模型及其训练方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:51:40上传分享