(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210833515.4
(22)申请日 2022.07.15
(71)申请人 河南中医药大学
地址 450046 河南省郑州市郑东 新区金水
东路156号
(72)发明人 牛秋月 曹莉 任靖娟 赵春霞
李瑞昌 王晓鹏
(74)专利代理 机构 郑州天阳专利事务所(普通
合伙) 41113
专利代理师 蔡文雅
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/25(2022.01)
G06V 10/52(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于信息损失区域检测机制的舌图像
分割方法
(57)摘要
本发明涉及基于信息损失区域检测机制的
舌图像分割方法, 可有效解决现有技术分割出来
的舌图像边缘会变得粗糙的问题, 其解决的技术
方案是, 包括以下步骤: 步骤1:收集舌图像数据
集; 步骤2:舌图像标注与预处理; 步骤3:构建舌
图像分割模型; 步骤4: 训练并测试舌图像分割模
型; 本发明方法可以有效地提高舌图像边缘区域
分割的准确率, 为后续舌诊 辩证分析提供有效依
据, 是舌图像分割方法上的创新。
权利要求书4页 说明书6页 附图2页
CN 115147605 A
2022.10.04
CN 115147605 A
1.一种基于信息损失区域检测机制的舌图像分割方法, 其特 征在于, 包括以下步骤:
步骤1:收集 舌图像数据集
舌图像分割数据集主要用于训练、 验证和测试网络模型, 为提高网络模型的泛化性, 数
据集通过舌诊采集仪器、 开源数据库下 载和手机摄 像头拍摄三种方式获得;
步骤2:舌图像标注与预处 理
为使训练的网络模型分割准确率更好, 需先用Labelme图像标注工具对步骤1收集到的
舌像进行舌体轮廓标注, 之后利用数据增强程序对标注后的舌图像随机进 行旋转、 平移、 缩
放、 添加噪声 进行预处理, 扩充原来的舌图像数据集;
步骤3:构建舌图像分割模型
通过识别舌图像分割中容易出错的物体边界和高频区域, 来提高舌图像分割的准确
率; 这些区域称之为信息损失区域, 基于信息损失区域检测机制的舌图像分割主要包括: 主
干特征提取、 构建特 征金字塔、 构建四叉树和基于Transformer的舌图像分割;
步骤4: 训练并测试舌图像分割模型
在训练过程中, 将随机排列每个待分割舌图像的信息损 失区域的顺序, 并保证每个待
分割舌图像具有相同的序列长度, 在测试过程中, 首先使用四叉树识别信息损失区域, 然后
使用构建的舌图像分割模型预测四叉树中所有信息损失区域的精细分割结果, 最后利用四
叉树融合多个特 征层级的预测结果, 完成整个舌图像的分割。
2.根据权利要求1所述的基于信 息损失区域检测机制的舌图像分割方法, 其特征在于,
所述的步骤3中, 主干特征提取采用ResNet101作为主干特征提取网络, 为了防止舌图像失
真和保证分割效果的精确, 首先在原舌图像边缘加灰条并保证边长能够整除2的6次方, 然
后传入到主干特征提取网络处理, 经过一系列的卷积、 标准化和激活函数之后, 舌图像的长
和宽不断的进行压缩, 获得多个共享特 征层, 也就是相当于把 舌图像划分成多个网格。
3.根据权利要求1所述的基于信 息损失区域检测机制的舌图像分割方法, 其特征在于,
所述的步骤3中, 构建特征金字塔的方法为: 取出经过主干特征提取之后获得的共享特征层
进行卷积、 上采样, 使舌图像特征不断变大, 并和上级 特征层进 行组合, 构造特征金字塔, 获
得有效特征层; 提取到的有效特征层一部分作为区域生成网络的有效特征层, 通过建议框
的获取, 生成粗略的分割结果, 一部 分用来构建ROI特征金字塔, 作为后续四叉树的输入, 实
现高精度的舌图像分割。
4.根据权利要求1所述的基于信 息损失区域检测机制的舌图像分割方法, 其特征在于,
所述的步骤3中, 构建四叉树的方法为: 首先将最低层的ROI特征和初始的舌体mask预测作
为输入, 采用一个全卷积网络进行四个3 ×3卷积来预测四叉树的根结点, 每个根结点分解
到临近更高ROI层对应的4个子结点, 对于高层的ROI特征, 继续对上一层损失区域检测的
mask做上采样, 然后与ROI特征拼接组合, 并使用单个1 ×1卷积层预测更精细的信息损失结
点, 以保持检测模块的轻量 化。
5.根据权利要求1所述的基于信 息损失区域检测机制的舌图像分割方法, 其特征在于,
所述的步骤3中, 基于Transformer的舌图像 分割方法包含三个模块: 结点编码器、 序列编码
器和像素解码器; 结点编码器选取四叉树的三个层级信息损失点作为输入, 首先丰富每个
信息损失结点的特征表示, 四叉树结点经结点编码器编码之后, 为了建立点与点之间的关
联, 序列编码器中的多头注意力模块会对输入序列进行点之间的特征融合及更新, 序列编权 利 要 求 书 1/4 页
2
CN 115147605 A
2码器的每一层都由多头自注意力模块和全连接的前馈网络组成, 可以执行序列上的全局跨
尺度预测, 最后, 再由像素解码器对序列编 码器编码之后的结点进 行解码, 预测每个点是否
属于舌体。
6.根据权利要求1所述的基于信 息损失区域检测机制的舌图像分割方法, 其特征在于,
具体包括以下步骤:
步骤1: 收集 舌图像数据集
数据集从以下三个渠道 获得: (1) 通过舌诊采集仪器采集到的100张舌像; (2) 在GitHub
上下载的开源舌像10 0张; (3) 通过手机摄 像头采集到的舌像5 0张;
步骤2: 舌图像标注与预处 理
使用Labelme 图像标注工具对步骤1收集到的250张舌像进行舌体轮廓标注, 保存标注
文件并批量生成数据集; 然后, 利用数据增强程序对标注后的舌图像随机进行旋转、 平移、
缩放、 添加噪声等 一系列预处 理操作, 将原 始250张带标签的舌图像扩展到 3000张;
步骤3:构建舌图像分割模型
首先对输入舌图像进行主干特征提取, 获得共享特征层, 接着特征金字塔网络对共享
特征层进 行上采样、 组合提取有效的特征层, 在此获得的有效特征层用来构 造ROI特征金字
塔, 进行信息损失区域的检测和舌图像的由粗到细的分割, 包括从主干特征提取、 特征金字
塔的构建、 信息损失区域检测 和舌图像的分割四个方面;
3.1 主干特征提取
使用ResNet101作为主干特征提取, ResNet101主要包含: Conv Block和Identity
Block两个块, 其中Conv Block残差边有卷积, 输入和输出的维度是不一样的, 它的作用是
改变网络的维度; Identity Block输入维度和输出维度相同, 可以串联, 用于加深网络的;
输入舌图像尺寸为 (1024,1024,3) , 经过ResNet101两个块 的处理, 舌图像的维度发生
改变并串联, 长和宽不断的进行压缩, 获得多个共享特征层, 可以加深网络深度, 提高舌体
检测效果; 用C2表示舌图像在主干特征提取中长和宽压缩了2次的共享特征层, 尺寸为
(256,256,256) ; C3表示长和宽压缩了3次的共享特征层, 尺寸为 (128, 128,512) ; C4表示长
和宽压缩了4次的共享特征层, 尺寸为 (64, 64,1024) ; C5表 示长和宽压缩了5次的共享特征
层, 尺寸为 (32, 32,2048) ;
3.2 特征金字塔FPN的构建
对在3.1中经过特征提取网络获得的共享特征层C5进行卷积、 上采样, 上采样的结果与
对应尺寸的共享特征层C4进 行融合, 获得有效特征层P4, 以此类推, 其它特征层也进 行类似
的卷积、 上采样、 融合, 共获得P1 ‑P6共6个有效特 征层;
提取到的有效特征层P2 ‑P5一部分作为区域生成网络的有效特征层, 通过建议框的获
取, 生成粗略的分割结果, 建议框是对物体初步筛选的结果, 代表图像中那些可能存在舌体
的区域, 其首先会对resize后的局部特征层进行四次3x3的256通道的卷积, 再进行一次反
卷积, 再进行一次通道数为2的卷积, 最终结果代表每一个像素点的类别, 是属于舌体区域
还是背景区域;
一部分有效特征层进入到ROI Align层进行ROI特征金字塔的构 建, 作为后续四叉树的
输入, 实现高精度的舌图像分割, ROI特征金字塔构建时主要在特征金字塔的三个层级上,
ROI大小依次为{28,5 6,112}, 将作为四叉树的输入, 预测高精度的实例分割掩码;权 利 要 求 书 2/4 页
3
CN 115147605 A
3
专利 一种基于信息损失区域检测机制的舌图像分割方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:26:04上传分享