[发明专利]一种基于二分规则特征融合随机森林算法的乳腺癌诊断方法在审

专利信息
申请号: 202011227888.4 申请日: 2020-10-29
公开(公告)号: CN112418280A 公开(公告)日: 2021-02-26
发明(设计)人: 黄玮;肖月月;王劲松 申请(专利权)人: 天津理工大学
主分类号: G06K9/62 分类号: G06K9/62;G16H50/20
代理公司: 暂无信息 代理人: 暂无信息
地址: 300384 *** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 二分 规则 特征 融合 随机 森林 算法 乳腺癌 诊断 方法
【权利要求书】:

1.一种基于二分规则特征融合随机森林算法的乳腺癌诊断方法包括以下步骤:

第1步、数据预处理。对国际标准乳腺癌数据集中的Breast-cancer-wisconsin(BCW)、WDBC和breast-cancer(BC)和3个数据集进行预处理;

第2步、利用信息增益(IG)算法对预处理后的数据集中的特征进行重要性衡量,并把特征按照重要性进行降序排序;

第3步、利用递归特征消除(RFE)算法对预处理后的数据集中的特性进行重要性衡量,同样把特征按照重要性进行降序排序;

第4步、利用提出的二分规则特征融合(BRF)方法把由第2步和第3步得到的特性序列进行特征融合处理,得到最终的特征序列;

第5步、把得到的最终特征序列数据输入到随机森林(RF)分类模型中进行训练与测试,输出诊断结果。

2.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法,其特征在于:第1步所述对数据进行预处理。为了表明本发明提出方法的可行性,将该方法运用到3个国际乳腺癌数据集上,但发明中所有的说明过程都以威斯康乳腺癌数据集Breast-cancer-wisconsin(BCW)为例,其他两种数据集也做类似操作,具体步骤如下:

第1.1步、数据清洗,该数据集有9个属性,分类2类,共286个实例,原始数据集中部分特征的数据是字符型,因此需把字符型转化为数值型,若发现有缺失值,本发明将缺失值所在列的平均值来填充;

第1.2步、数据标签化,BCW数据集2类别为recurrence-events和no-recurrence-events,分别标签化为0和1,同时也对数据集的9个属性数据进行标签化。

3.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法,其特征在于:第2步所述的利用信息增益(IG)算法对预处理后的数据集中的特征进行重要性衡量具体步骤如下:

第2.1步、计算数据集的熵:

第2.2步、计算数据集的条件熵:

第2.3步、计算特征Y对训练数据集X的信息增益:g(X,Y)=H(X)-H(X|Y)。

4.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法,其特征在于,第3步所述利用递归特征消除(RFE)算法对预处理后的数据集中的特性进行重要性衡量,由以下步骤组成:

第3.1步、初始化原始特征集合S=[1,2,...X],特征排序集R=[ ];

第3.2步、循环以下步骤直至S=[ ]

第3.2.1步、获取带候选特征集合的训练样本;

第3.2.2步、用式训练分类器,得到ω;

第3.2.3步、用式子k=1,2...,|S|计算排序准则得分;

第3.3.3步、找出排序得分最小的特征p=arg minkck

第3.3步、更新特征集R=[p,R]。

5.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法,其特征在于第4步所述利用提出的二分规则特征融合(BRF)方法为:

第4.1步、获取特征排序集T1和T2,T1是由IG算法处理后的特征集合,T2是由RFE算法处理后的特征集合;

第4.2步、初始化特征排序集FR=[ ];

第4.3步、将特征排序集T1和T2的中各个属性的排序准则得分取1/2后再对应求和,最后将根据排序准则得分进行降序排序,从而得到最优的特征序列FR。

6.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法,其特征在于第5步所述的把得到的最终特征序列数据输入到随机森林(RF)分类模型中进行训练与测试,具体方法如下:

第5.1步、初始化读入的样本数据集X,并设置G_MaxAcc=0;

第5.2步、将数据集划分成10等份,进行10折交叉验证:

第5.2.1步、设置局部平均分类准确率MeanAcc=0和局部最大分类准确率L_MaxAcc=0;

第5.2.2步、初始化10折交叉验证中每次迭代的分类准确率Acc[1∶10]=0;

第5.2.3步、在利用二分规则融合进行特征选择得到新的特征序列样本上运行randomForest创建分类;

第5.2.4步、在测试集上执行预测进行分类,比较分类结果,计算Acc,同时计算MeanAcc=MeanAcc+Acc[i]/10;

第5.2.5步、计算L_MaxAcc,如果L_MaxAcc<=Acc[i],则L_MaxAcc=Acc[i];

第5.2.6步、计算G_MaxAcc,如果G_MaxAcc<=MeanAcc[i],则G_MaxAcc=MeanAcc[i];

第5.3步、输出全局最高分类准确率G_MaxAcc。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011227888.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top