全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220629.1 (22)申请日 2022.03.08 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 陈佳舟 詹扬帆 潘翔  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 王幸祥 (51)Int.Cl. G06T 7/11(2017.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/08(2006.01) (54)发明名称 一种基于语义流网络的RGBD语义分割方法 (57)摘要 一种基于语义流网络的RGBD语义分割方法, 包括: 将RGB与深度图像分别输入全对齐融合网 络, 提取初步特征后送入模态对齐模块进行融 合, 经过多个模态对齐模块后保留其输出特征并 将最后一个作为高层特征。 之后将高层特征送入 金字塔池化模块进行上下文信息提取获得特征 F, 将模态对齐模块中保留的对应特征与F进行流 对齐操作获得新特征, 经过多个流对齐模块后从 最后一个流对齐模块输出的特征被输入进最终 的卷积层 进行逐像素分类, 获得最终语义分割图 P。 本发明设计并提出了全对齐融合网络, 解决了 目前语义分割问题中由于特征信息不对齐造成 的类混淆、 对象混淆等问题, 实现了相似像素之 间轮廓的区分, 提高了整体 语义分割的精度。 权利要求书3页 说明书6页 附图1页 CN 114596322 A 2022.06.07 CN 114596322 A 1.一种基于语义 流网络的RGBD语义分割方法, 包括以下步骤: 步骤1、 将RGB图像R0与深度图像D0分别输入全对齐融合网络, 提取初步特征后 送入模态 对齐模块进行融合; 步骤2、 模态对齐模块内部分为流对齐模块和注意力融合模块, 首先在流对齐模块中进 行流对齐操作得到对齐特 征Rw和Dw; 步骤3、 将Rw和Dw送入注意力融合模块进行融合获得模块特 征Fe1并存储; 步骤4、 之后将Fe1输入网络主干与原始特征相加获得特征R ″1与D″1并将二者送入后续3 个模态对齐模块, 重复进行步骤2、 步骤3的操作, 获得3个模态对齐模块的对应特征Fe2、 Fe3、 Fe4, 并将从最后一个模态对齐模块输出的Fe4作为最终高层语义特 征Fh; 步骤5、 解码器部分, 将Fh送入金字塔池化模块进行 上下文信息提取获得 特征Fd1; 步骤6、 将编码器部分保留的特 征Fe3与特征Fe1进行流对齐操作获得 特征Fd2; 步骤7、 将与步骤6相同的方式迭代两次, 即将编码器部分保留的特征Fe2与特征Fd2进行 流对齐操作, 获得特征Fd3; 将编码器部分保留的特征Fe1与特征Fd3进行流对齐操作, 获得特 征Fd4; 解码器末尾从最后一个流对齐模块输出的Fd4被输入进最终的卷积层进行逐像素分 类, 获得最终语义分割图P。 2.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤1中, 全对齐融合网络延续了FCN的框架, 分为编码 器和解码 器; 其中编码 器由一个网络主 干和4个模态对齐模块组成; 而网络主干内部由2个残差网络ResNet101组成; 两个残差网络 ResNet101以平行的方式排列, 分别接收RGB和深度图像, 因此被称为双路网络; RGB与深度 图像被送入双路网络中, 经过卷积、 激 活函数、 池化层得到两个特征R1与D1; R1与D1分别代表 RGB和深度图像经过初步处理获得的初级语义特征, 拥有较高的分辨率, 但是语义信息较 少; 将这两者送入 模态对齐模块融合以便更好 地提取特征。 3.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤2中, 模态对齐模块被分为两个部分, 流对齐模块与注意力融合模块; 特征 的传播是先经 过流对齐模块, 再输入进注意力融合模块; 在流对齐模块中, 对于特征图R1、 D1, 记其形状分 别为(CR, H, W), (CD, H, W); 其中H, W分别 代表特征图的高度和宽度, CR、 CD分别代表特征图R1、 D1的特征通道数; 将两个特征图用1x 1的卷积层进行处理, 将两者的通道数变为相同的通道 数C; 具体公式表示 为: 其中Conv代表卷积层的卷积操作, 指特征空间, 利用卷积操作处理R1、 D1得到 特征图R′1和D′1; 随后将两者利用通道拼接操作拼接, 送入流提取层提取到语义流信息 Xflow; 此处的流提 取层是一个卷积层, 输出通道数为2, 分别代 表X、 Y方向上像素点的偏移量; 其中 代表通道拼接操作; 语义流信息Xflow包含了R′1与D′1的偏移量信息, 属于两者的 共有特征; 将R ′1与D′1分别与Xflow进行流对齐, 可以让两者利用偏移量将原本的像素点映射 至同一位置, 使 各自的独有 特征在语义流信息的共有 特征下充分暴露出来; 而RGB与深度图权 利 要 求 书 1/3 页 2 CN 114596322 A 2像的独有特征是高度互补的, 在此基础上进行融合可以更高效地提取图像特征; 流对齐方 式采用了Warp操作; Warp操作是一种被称为扭曲的图像处理技术, 通过改变图像像素点的 位置来对图像进行修改; 基本的2D图像Warp操作包括平移、 旋转、 仿射变换等等; 在本方法 中, 由于我们获得的语义流信息Xflow包含了像素点在X、 Y方向上的偏移量, 因此可以通过语 义流信息的偏移量将对应位置的像素值填充到指定位置从而完成Warp操作使多模态之间 的像素对齐, 获得对齐后的特 征Rw, Dw, 即 Rw=Warp(R′1, Xflow)     (4) Dw=Warp(D′1, Xflow)    (5) 4.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤3中, Rw, Dw从流对齐模块输出后, 继续传播至注意力融合模块进行融合; 注意力融合模块 的作用是将两者暴露出的互补特征利用注意力以及互融合机制充分融合; 由于两者已经处 于对齐状态, 充分融合后获得的特征也包含了更丰富的语义信息; 经过注意力融合模块后 获得特征Fe1。 5.如权利要求1所属的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤4中, 编码器结构中一共存在4个模态对 齐模块, 被设置在网络主 干的不同深度处; Fe1在保 留一份备份后, 从模态对齐模块输出; 为了使高层也能获得充分的特征, 将该特征输入回网 络主干中, 与原 始的RGB与Depth特 征以逐元素相加的方式 融合后继续向后传播; R″1=R1+Fe1    (6) D″1=D1+Fe1    (7) R″1与D″1被送入网络主干的更深层, 重复上述2、 3步骤, 经过网络主干的卷积、 激活函 数、 池化层后, 被送入其余的3个模态对齐模块, 分别输出对应的特征Fe2、 Fe3、 Fe4, 再输入回 网络主干内部直至编码器的结尾; 最终输出的Fe4作为最后的高层语义特 征Fh。 6.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤5中, 编码器得到的特征Fh拥有丰富的语义特征, 但是其分辨率很低; 为了得到原始分辨 率大小的特征分割图, 需要利用解码 器上采样恢复分辨率; 在进 行上采样之前, 需要进一步 对提取到的特征进行处理; 特征Fh首先被送入金字塔池化模块提取上下文信息获得特征 Fd1。 7.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法, 其特征在于: 所述步 骤6中, 由于 分辨率需要逐步恢复, 因此需要将编 码器内部保留的特征按照倒序与解码 器的 特征进行对 齐; 编码器内部 最后一个特征是Fe4, 即Fh, 分辨率与Fd1相同, 因此选择倒数第2个 流对齐模块保留的Fe3特征与Fd1一起在解码器的流对齐模块中进行步骤2中所述的流对齐 操作; 此处流对齐模块的作用与步骤2中流对齐模块的作用不相同; 目前的大部 分网络对特 征进行上采样时, 使用的是双线性插值法; 但是双线性插值法在 恢复下采样图像的像素时, 是通过对邻近的四个像素进行插值 获得新像素值, 是一种 均匀的采样, 而 卷积、 残差连接等 操作会导致高分辨率到低分辨率的特征像素分布变得不均匀, 因此直接利用均匀的双线性 插值上采样会导致特征之间的不对齐, 使高层向浅层传递特征时有信息的损失; 而流对齐 模块使高层与浅层特征对齐, 确保了特征信息的有效传递, 可以解决该问题; 与步骤2类似, 将Fd1与Fe3经过卷积后拼接, 再送入流处理层提取语义流信息Xflow, 再将前者经过卷积后的 特征F′d1与语义流信息进行步骤2中提到的Warp操作进行对齐:权 利 要 求 书 2/3 页 3 CN 114596322 A 3

.PDF文档 专利 一种基于语义流网络的RGBD语义分割方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义流网络的RGBD语义分割方法 第 1 页 专利 一种基于语义流网络的RGBD语义分割方法 第 2 页 专利 一种基于语义流网络的RGBD语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。