[发明专利]一种数据集中含有不确定数据时的肺结节图像分类方法有效

申请号：	201910489713.1	申请日：	2019-06-06
公开（公告）号：	CN110223281B	公开（公告）日：	2022-06-28
发明（设计）人：	毛克明;王新琦;常辉东;李佳明;李翰鹏	申请（专利权）人：	东北大学
主分类号：	G06T7/00	分类号：	G06T7/00;G06V10/774;G06K9/62
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据集中含有不确定结节图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，包括下述步骤：

步骤1：组织数据集：收集N张肺结节CT图像构成图像集I＝{I₁,I₂,...,I_n,...,I_N}，将肺结节分为良性、恶性和不确定三种类型；采用专家法对每张肺结节CT图像进行类别标注，得到第n张肺结节CT图像I_n的类别为e_n；对每张肺结节CT图像进行预处理，得到肺结节CT图像数据集D；所述预处理包括将肺结节CT图像转换为JPG格式并对转换后的图像进行裁剪、尺寸调整、数据增强预处理；

其中，n∈{1,2,...,N}，e_n∈M_level，M_level＝{0,1,2}，M_level中的0、1、2分别代表良性、不确定、恶性三种肺结节类型；D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_m,y_m)}，m为肺结节CT图像数据集D中的样本总数，x_i为肺结节CT图像数据集D中的第i张肺结节CT图像，y_i为第i张肺结节CT图像x_i的类别标签，y_i∈M_level；

步骤2：基于知识蒸馏法，构建肺结节图像分类模型，所述肺结节图像分类模型包括教师模型、学生模型；所述教师模型包括L个神经网络模型和L个softmax分类器，所述学生模型包括神经网络模型、第一softmax分类器s₁、第二softmax分类器s₂；

步骤3：在确定标签数据集上训练教师模型；

步骤3.1：获取确定标签数据集：从肺结节CT图像数据集D中提取类别标签为良性和类别标签为恶性的元素，构成确定标签数据集D_C；

其中，D_C＝{(x₁,y₁),(x₂,y₂),...,(x_j,y_j),...,(x_mC,y_mC)}∈D，mC为确定标签数据集D_C中的样本总数，y_j为确定标签数据集D_C中的肺结节CT图像x_j的类别标签，y_j∈M_C＝{0,1}，M_C中的0、1分别代表良性、恶性两种肺结节类型；

步骤3.2：对确定标签数据集D_C按照批次处理，依次将每一批次的样本集D_Cs输入教师模型中的每个神经网络模型，采用随机初始化来初始化网络参数，通过教师模型中的L个神经网络模型对样本集D_Cs进行特征提取，在教师模型中的每个神经网络模型后都通过softmax分类器对样本集D_Cs中的肺结节CT图像进行分类；其中，D_Cs∈D_C，D_Cs中的样本个数为ms；

对于输入的肺结节CT图像x_k∈D_Cs，经过假设函数输出二维向量p_k，向量p_k中的每个元素代表对于给定的肺结节CT图像x_k每一个肺结节类型σ∈M_C的概率估计值p(y_k＝σ|x_k)，假设函数为

其中，θ＝{θ₀,θ₁}为模型参数集，为对概率分布进行归一化使得所有概率总和为1，为模型参数集θ中第μ个元素的转置；

在确定标签数据集D_C上通过损失函数J_C(θ)采用小批量梯度下降法对教师模型进行训练：

其中，logloss为类别交叉熵损失函数，logloss(p,q)＝-plogq，为肺结节CT图像x_k经过教师模型中的神经网络模型和softmax分类器输出的类别概率向量；为肺结节CT图像x_k的正确类别标签即硬标签，根据步骤1中计算的类别标签来确定良性为[1,0]、恶性为[0,1]；R(θ)为正则化项，γ为正则化系数，γ≥0；p(y_k＝σ|x_k；θ)为参数为θ时softmax分类器将样本x_k分类为类别σ的概率，l_r_t为学习率；

步骤3.3：应用训练好的教师模型到肺结节CT图像数据集D以计算软标签：去掉教师模型中每个神经网络模型后的softmax分类器，将肺结节CT图像数据集D作为教师模型中每个神经网络模型的输入，获取教师模型中每个神经网络模型的logits输出值，对教师模型中所有神经网络模型的logits输出值进行加权平均，得到肺结节CT图像x_i的最终logits输出值为计算得到肺结节CT图像x_i的软标签为

其中，α_r为教师模型中第r个神经网络模型的logits输出值占最终logits输出值的权重，l_r()为教师模型中第r个神经网络模型的logits输出值，为z_i中的第μ个元素；为肺结节CT图像x_i的软化的概率分布即软标签，中的元素数值介于0-1之间，为二维向量；T为温度参数，用于控制软标签概率分布的平滑程度；

步骤4：在联合硬标签和软标签的数据集上训练学生模型：

步骤4.1：对确定标签数据集D_C和不确定标签数据集D_unc按照批次处理，每一批次中从确定标签数据集D_C和不确定标签数据集D_unc中随机提取数据构成联合硬标签和软标签的数据集D_C-unc，依次将每一批次的数据集D_C-unc输入学生模型；

其中，D_unc＝D-D_C，数据集D_C-unc中来自确定标签数据集D_C和不确定标签数据集D_unc的样本比例为ε，数据集D_C-unc中的样本总数为mu；

步骤4.2：采用随机初始化来初始化网络参数，通过学生模型中的神经网络模型对数据集D_C-unc进行特征提取，输出数据集D_C-unc中每个肺结节CT图像的logits输出值，将数据集D_C-unc中每个肺结节CT图像的logits输出值输入第一softmax分类器s₁，将数据集D_C-unc中每个肺结节CT图像的logits输出值除以温度参数T后输入第二softmax分类器s₂；将第一softmax分类器s₁的输出与硬标签输入到类别交叉熵损失函数中求出硬标签交叉熵损失函数值，将第二softmax分类器s₂的输出与软标签输入到类别交叉熵损失函数中求出软标签交叉熵损失函数值，将硬标签交叉熵损失函数值和软标签交叉熵损失函数值按权重加和计算最终的损失函数值为

其中，x_t为数据集D_C-unc中的第t张肺结节CT图像；1{}为指示函数，{}内为条件，若条件成立则1{}＝1，若条件不成立则1{}＝0；β为硬标签交熵损失函数值的权重；为肺结节CT图像x_t经过学生模型中的神经网络模型和第一softmax分类器s₁输出的类别标签概率分布，为肺结节CT图像x_t经过学生模型中的神经网络模型和第二softmax分类器s₂输出的类别软标签，

步骤4.3：在联合硬标签和软标签的数据集D_C-unc上通过损失函数J(θ)采用小批量梯度下降法对学生模型进行训练，得到训练后的学生模型；除去第二softmax分类器s₂，得到训练后的肺结节图像分类模型；

步骤5：采用与步骤1中相同的预处理方法对待分类肺结节CT图像进行预处理，将预处理后的待分类肺结节CT图像输入训练后的肺结节图像分类模型中，训练后的肺结节图像分类模型对待分类肺结节CT图像进行分类，根据输出待分类肺结节CT图像的类别标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910489713.1/1.html，转载请声明来源钻瓜专利网。

上一篇：静脉血栓检测方法和静脉血栓检测装置
下一篇：一种泥页岩有机孔隙与无机孔隙自动识别方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据集中含有不确定数据时的肺结节图像分类方法有效

专利文献下载