[发明专利]一种基于信息损失区域检测机制的舌图像分割方法在审
| 申请号: | 202210833515.4 | 申请日: | 2022-07-15 |
| 公开(公告)号: | CN115147605A | 公开(公告)日: | 2022-10-04 |
| 发明(设计)人: | 牛秋月;曹莉;任靖娟;赵春霞;李瑞昌;王晓鹏 | 申请(专利权)人: | 河南中医药大学 |
| 主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/25;G06V10/52;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 蔡文雅 |
| 地址: | 450046 河南*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 信息 损失 区域 检测 机制 图像 分割 方法 | ||
1.一种基于信息损失区域检测机制的舌图像分割方法,其特征在于,包括以下步骤:
步骤1:收集舌图像数据集
舌图像分割数据集主要用于训练、验证和测试网络模型,为提高网络模型的泛化性,数据集通过舌诊采集仪器、开源数据库下载和手机摄像头拍摄三种方式获得;
步骤2:舌图像标注与预处理
为使训练的网络模型分割准确率更好,需先用Labelme图像标注工具对步骤1收集到的舌像进行舌体轮廓标注,之后利用数据增强程序对标注后的舌图像随机进行旋转、平移、缩放、添加噪声进行预处理,扩充原来的舌图像数据集;
步骤3:构建舌图像分割模型
通过识别舌图像分割中容易出错的物体边界和高频区域,来提高舌图像分割的准确率;这些区域称之为信息损失区域,基于信息损失区域检测机制的舌图像分割主要包括:主干特征提取、构建特征金字塔、构建四叉树和基于Transformer的舌图像分割;
步骤4:训练并测试舌图像分割模型
在训练过程中,将随机排列每个待分割舌图像的信息损失区域的顺序,并保证每个待分割舌图像具有相同的序列长度,在测试过程中,首先使用四叉树识别信息损失区域,然后使用构建的舌图像分割模型预测四叉树中所有信息损失区域的精细分割结果,最后利用四叉树融合多个特征层级的预测结果,完成整个舌图像的分割。
2.根据权利要求1所述的基于信息损失区域检测机制的舌图像分割方法,其特征在于,所述的步骤3中,主干特征提取采用ResNet101作为主干特征提取网络,为了防止舌图像失真和保证分割效果的精确,首先在原舌图像边缘加灰条并保证边长能够整除2的6次方,然后传入到主干特征提取网络处理,经过一系列的卷积、标准化和激活函数之后,舌图像的长和宽不断的进行压缩,获得多个共享特征层,也就是相当于把舌图像划分成多个网格。
3.根据权利要求1所述的基于信息损失区域检测机制的舌图像分割方法,其特征在于,所述的步骤3中,构建特征金字塔的方法为:取出经过主干特征提取之后获得的共享特征层进行卷积、上采样,使舌图像特征不断变大,并和上级特征层进行组合,构造特征金字塔,获得有效特征层;提取到的有效特征层一部分作为区域生成网络的有效特征层,通过建议框的获取,生成粗略的分割结果,一部分用来构建ROI特征金字塔,作为后续四叉树的输入,实现高精度的舌图像分割。
4.根据权利要求1所述的基于信息损失区域检测机制的舌图像分割方法,其特征在于,所述的步骤3中,构建四叉树的方法为:首先将最低层的ROI特征和初始的舌体mask预测作为输入,采用一个全卷积网络进行四个3×3卷积来预测四叉树的根结点,每个根结点分解到临近更高ROI层对应的4个子结点,对于高层的ROI特征,继续对上一层损失区域检测的mask做上采样,然后与ROI特征拼接组合,并使用单个1×1卷积层预测更精细的信息损失结点,以保持检测模块的轻量化。
5.根据权利要求1所述的基于信息损失区域检测机制的舌图像分割方法,其特征在于,所述的步骤3中,基于Transformer的舌图像分割方法包含三个模块:结点编码器、序列编码器和像素解码器;结点编码器选取四叉树的三个层级信息损失点作为输入,首先丰富每个信息损失结点的特征表示,四叉树结点经结点编码器编码之后,为了建立点与点之间的关联,序列编码器中的多头注意力模块会对输入序列进行点之间的特征融合及更新,序列编码器的每一层都由多头自注意力模块和全连接的前馈网络组成,可以执行序列上的全局跨尺度预测,最后,再由像素解码器对序列编码器编码之后的结点进行解码,预测每个点是否属于舌体。
6.根据权利要求1所述的基于信息损失区域检测机制的舌图像分割方法,其特征在于,具体包括以下步骤:
步骤1:收集舌图像数据集
数据集从以下三个渠道获得:(1)通过舌诊采集仪器采集到的100张舌像;(2)在GitHub上下载的开源舌像100张;(3)通过手机摄像头采集到的舌像50张;
步骤2:舌图像标注与预处理
使用Labelme图像标注工具对步骤1收集到的250张舌像进行舌体轮廓标注,保存标注文件并批量生成数据集;然后,利用数据增强程序对标注后的舌图像随机进行旋转、平移、缩放、添加噪声等一系列预处理操作,将原始250张带标签的舌图像扩展到3000张;
步骤3:构建舌图像分割模型
首先对输入舌图像进行主干特征提取,获得共享特征层,接着特征金字塔网络对共享特征层进行上采样、组合提取有效的特征层,在此获得的有效特征层用来构造ROI特征金字塔,进行信息损失区域的检测和舌图像的由粗到细的分割,包括从主干特征提取、特征金字塔的构建、信息损失区域检测和舌图像的分割四个方面;
3.1 主干特征提取
使用ResNet101作为主干特征提取,ResNet101主要包含:Conv Block和IdentityBlock两个块,其中Conv Block残差边有卷积,输入和输出的维度是不一样的,它的作用是改变网络的维度;Identity Block输入维度和输出维度相同,可以串联,用于加深网络的;
输入舌图像尺寸为(1024,1024,3),经过ResNet101两个块的处理,舌图像的维度发生改变并串联,长和宽不断的进行压缩,获得多个共享特征层,可以加深网络深度,提高舌体检测效果;用C2表示舌图像在主干特征提取中长和宽压缩了2次的共享特征层,尺寸为(256,256,256);C3表示长和宽压缩了3次的共享特征层,尺寸为(128, 128,512);C4表示长和宽压缩了4次的共享特征层,尺寸为(64, 64,1024);C5表示长和宽压缩了5次的共享特征层,尺寸为(32, 32,2048);
3.2 特征金字塔FPN的构建
对在3.1中经过特征提取网络获得的共享特征层C5进行卷积、上采样,上采样的结果与对应尺寸的共享特征层C4进行融合,获得有效特征层P4,以此类推,其它特征层也进行类似的卷积、上采样、融合,共获得P1-P6共6个有效特征层;
提取到的有效特征层P2-P5一部分作为区域生成网络的有效特征层,通过建议框的获取,生成粗略的分割结果,建议框是对物体初步筛选的结果,代表图像中那些可能存在舌体的区域,其首先会对resize后的局部特征层进行四次3x3的256通道的卷积,再进行一次反卷积,再进行一次通道数为2的卷积,最终结果代表每一个像素点的类别,是属于舌体区域还是背景区域;
一部分有效特征层进入到ROI Align层进行ROI特征金字塔的构建,作为后续四叉树的输入,实现高精度的舌图像分割,ROI特征金字塔构建时主要在特征金字塔的三个层级上,ROI大小依次为{28,56,112},将作为四叉树的输入,预测高精度的实例分割掩码;
3.3构建四叉树并进行信息损失区域检测
构造由不同层级信息损失结点构成的四叉树,这些节点都来自于步骤3.2中的ROI特征金字塔,把来自分辨率28×28的ROI特征的信息损失结点作为根节点,从上到下在其相邻的分辨率56×56的ROI中中扩展四个对应子结点,以此类推,将预测为信息损失结点的像素点向上层进一步分解,构建一个多层次的四叉树,一方面可以减少计算量,另一方面随着四叉树变深,高层ROI具有更高的分辨率和更多的舌体信息,能够使舌体预测逐渐精细化;
信息损失区域的检测遵循由低到高的级联设计,为了检测ROI金字塔上的不同层级上信息损失结点,首先将分辨率28×28的ROI特征和初始的舌体mask预测作为输入,采用一个全卷积网络进行四个3×3卷积来预测四叉树的根结点,这样每个根结点就会分解到临近更高ROI层对应的4个子结点,对于高层的ROI特征,继续对上一层损失区域检测的mask做上采样,然后与ROI特征拼接组合,并使用单个1×1卷积层预测更精细的信息损失结点,以保持检测模块的轻量化;
3.4 设计基于Transformer的舌图像分割网络
基于Transformer的分割网络主要包含三个模块:节点编码器、序列编码器和像素解码器;选取四叉树的三个层级信息损结点作为无序序列输入,假设特征层的高是H,宽是W,N是结点个数,C 是特征通道维度,形状为 C × N,由于信息损失区域高度稀疏,也就是N 远小于 HW,因此,仅将ROI金字塔上多层且稀疏分布的信息损失结点作为输入,并预测每个点相应的分割标签;
为了丰富每个信息损失结点的特征表示,结点编码器将使用从特征金字塔的相应位置和层级提取的细粒度深度特征,初始检测器的粗略掩码预测所提供高层的语义信息,ROI金字塔的局部特征拼接后与位置向量相加等几个方向对四叉树中每个结点,使用从 3×3 邻域中提取的特征,再经全连接层压缩到原特征维度,得到编码后的结点,这样能够捕捉舌体的局部形状,更好的定位舌体边缘;
四叉树中结点经结点编码器编码后,为了实现点之间的互相连通,序列编码器中的多头注意力模块会对输入序列进行点之间的特征融合及更新,序列编码器的每一层都由多头自注意力模块和全连接的前馈网络组成,为了给输入序列补充足够的前景和背景信息,还将ROI金字塔中最低层大小为14x14的特征点输入;
最后,由一个具有简单的两层多层感知机的像素解码器,对序列编码器编码之后的结点进行解码,预测每个点是否属于舌体,进而完成舌图像分割;
步骤4:训练并测试舌图像分割模型
基于步骤3.3中所构建的四叉树,在训练过程中,将随机排列每个待分割舌图像的信息损失区域的顺序,并保证每个待分割舌图像具有相同的序列长度;
在训练期间,使用端到端的方式,采用多任务损失函数训练分割模型,如下所示:
L=λ1LDetect+ λ2LCoarse+ λ3 LRefine + λ4LInc
LRefine是对信息损失区域的预测结果与其真实结果之间的损失细化,二分类交叉损失函数LInc主要用于检测信息损失区域,检测损失参数LDetect主要包括前期基础分割的损失,LCoarse表示初始在构建四叉树之前所做的粗分割预测的损失,参数λ{1,2,3,4}的权重分别为{1.0,1.0,1.0,1.0,0.5};
在测试过程中,首先使用四叉树识别信息损失区域,然后使用步骤3.4所构建的舌图像分割模型预测四叉树中所有信息损失区域的精细分割结果,最后,利用四叉树融合多个特征层级的预测结果,完成整个舌图像的分割。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南中医药大学,未经河南中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210833515.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关系图谱的构建方法及系统
- 下一篇:一种火力发电厂关键设备辨识方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





