[发明专利]一种数据集中含有不确定数据时的肺结节图像分类方法有效
| 申请号: | 201910489713.1 | 申请日: | 2019-06-06 |
| 公开(公告)号: | CN110223281B | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 毛克明;王新琦;常辉东;李佳明;李翰鹏 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00;G06V10/774;G06K9/62 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 集中 含有 不确定 结节 图像 分类 方法 | ||
1.一种数据集中含有不确定数据时的肺结节图像分类方法,其特征在于,包括下述步骤:
步骤1:组织数据集:收集N张肺结节CT图像构成图像集I={I1,I2,...,In,...,IN},将肺结节分为良性、恶性和不确定三种类型;采用专家法对每张肺结节CT图像进行类别标注,得到第n张肺结节CT图像In的类别为en;对每张肺结节CT图像进行预处理,得到肺结节CT图像数据集D;所述预处理包括将肺结节CT图像转换为JPG格式并对转换后的图像进行裁剪、尺寸调整、数据增强预处理;
其中,n∈{1,2,...,N},en∈Mlevel,Mlevel={0,1,2},Mlevel中的0、1、2分别代表良性、不确定、恶性三种肺结节类型;D={(x1,y1),(x2,y2),...,(xi,yi),...,(xm,ym)},m为肺结节CT图像数据集D中的样本总数,xi为肺结节CT图像数据集D中的第i张肺结节CT图像,yi为第i张肺结节CT图像xi的类别标签,yi∈Mlevel;
步骤2:基于知识蒸馏法,构建肺结节图像分类模型,所述肺结节图像分类模型包括教师模型、学生模型;所述教师模型包括L个神经网络模型和L个softmax分类器,所述学生模型包括神经网络模型、第一softmax分类器s1、第二softmax分类器s2;
步骤3:在确定标签数据集上训练教师模型;
步骤3.1:获取确定标签数据集:从肺结节CT图像数据集D中提取类别标签为良性和类别标签为恶性的元素,构成确定标签数据集DC;
其中,DC={(x1,y1),(x2,y2),...,(xj,yj),...,(xmC,ymC)}∈D,mC为确定标签数据集DC中的样本总数,yj为确定标签数据集DC中的肺结节CT图像xj的类别标签,yj∈MC={0,1},MC中的0、1分别代表良性、恶性两种肺结节类型;
步骤3.2:对确定标签数据集DC按照批次处理,依次将每一批次的样本集DCs输入教师模型中的每个神经网络模型,采用随机初始化来初始化网络参数,通过教师模型中的L个神经网络模型对样本集DCs进行特征提取,在教师模型中的每个神经网络模型后都通过softmax分类器对样本集DCs中的肺结节CT图像进行分类;其中,DCs∈DC,DCs中的样本个数为ms;
对于输入的肺结节CT图像xk∈DCs,经过假设函数输出二维向量pk,向量pk中的每个元素代表对于给定的肺结节CT图像xk每一个肺结节类型σ∈MC的概率估计值p(yk=σ|xk),假设函数为
其中,θ={θ0,θ1}为模型参数集,为对概率分布进行归一化使得所有概率总和为1,为模型参数集θ中第μ个元素的转置;
在确定标签数据集DC上通过损失函数JC(θ)采用小批量梯度下降法对教师模型进行训练:
其中,logloss为类别交叉熵损失函数,logloss(p,q)=-plogq,为肺结节CT图像xk经过教师模型中的神经网络模型和softmax分类器输出的类别概率向量;为肺结节CT图像xk的正确类别标签即硬标签,根据步骤1中计算的类别标签来确定良性为[1,0]、恶性为[0,1];R(θ)为正则化项,γ为正则化系数,γ≥0;p(yk=σ|xk;θ)为参数为θ时softmax分类器将样本xk分类为类别σ的概率,l_rt为学习率;
步骤3.3:应用训练好的教师模型到肺结节CT图像数据集D以计算软标签:去掉教师模型中每个神经网络模型后的softmax分类器,将肺结节CT图像数据集D作为教师模型中每个神经网络模型的输入,获取教师模型中每个神经网络模型的logits输出值,对教师模型中所有神经网络模型的logits输出值进行加权平均,得到肺结节CT图像xi的最终logits输出值为计算得到肺结节CT图像xi的软标签为
其中,αr为教师模型中第r个神经网络模型的logits输出值占最终logits输出值的权重,lr()为教师模型中第r个神经网络模型的logits输出值,为zi中的第μ个元素;为肺结节CT图像xi的软化的概率分布即软标签,中的元素数值介于0-1之间,为二维向量;T为温度参数,用于控制软标签概率分布的平滑程度;
步骤4:在联合硬标签和软标签的数据集上训练学生模型:
步骤4.1:对确定标签数据集DC和不确定标签数据集Dunc按照批次处理,每一批次中从确定标签数据集DC和不确定标签数据集Dunc中随机提取数据构成联合硬标签和软标签的数据集DC-unc,依次将每一批次的数据集DC-unc输入学生模型;
其中,Dunc=D-DC,数据集DC-unc中来自确定标签数据集DC和不确定标签数据集Dunc的样本比例为ε,数据集DC-unc中的样本总数为mu;
步骤4.2:采用随机初始化来初始化网络参数,通过学生模型中的神经网络模型对数据集DC-unc进行特征提取,输出数据集DC-unc中每个肺结节CT图像的logits输出值,将数据集DC-unc中每个肺结节CT图像的logits输出值输入第一softmax分类器s1,将数据集DC-unc中每个肺结节CT图像的logits输出值除以温度参数T后输入第二softmax分类器s2;将第一softmax分类器s1的输出与硬标签输入到类别交叉熵损失函数中求出硬标签交叉熵损失函数值,将第二softmax分类器s2的输出与软标签输入到类别交叉熵损失函数中求出软标签交叉熵损失函数值,将硬标签交叉熵损失函数值和软标签交叉熵损失函数值按权重加和计算最终的损失函数值为
其中,xt为数据集DC-unc中的第t张肺结节CT图像;1{}为指示函数,{}内为条件,若条件成立则1{}=1,若条件不成立则1{}=0;β为硬标签交熵损失函数值的权重;为肺结节CT图像xt经过学生模型中的神经网络模型和第一softmax分类器s1输出的类别标签概率分布,为肺结节CT图像xt经过学生模型中的神经网络模型和第二softmax分类器s2输出的类别软标签,
步骤4.3:在联合硬标签和软标签的数据集DC-unc上通过损失函数J(θ)采用小批量梯度下降法对学生模型进行训练,得到训练后的学生模型;除去第二softmax分类器s2,得到训练后的肺结节图像分类模型;
步骤5:采用与步骤1中相同的预处理方法对待分类肺结节CT图像进行预处理,将预处理后的待分类肺结节CT图像输入训练后的肺结节图像分类模型中,训练后的肺结节图像分类模型对待分类肺结节CT图像进行分类,根据输出待分类肺结节CT图像的类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489713.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





