[发明专利]一种基于二分规则特征融合随机森林算法的乳腺癌诊断方法在审

申请号：	202011227888.4	申请日：	2020-10-29
公开（公告）号：	CN112418280A	公开（公告）日：	2021-02-26
发明（设计）人：	黄玮;肖月月;王劲松	申请（专利权）人：	天津理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G16H50/20
代理公司：	暂无信息	代理人：	暂无信息
地址：	300384 ***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于二分规则特征融合随机森林算法乳腺癌诊断方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于二分规则特征融合随机森林算法的乳腺癌诊断方法包括以下步骤：

第1步、数据预处理。对国际标准乳腺癌数据集中的Breast-cancer-wisconsin(BCW)、WDBC和breast-cancer(BC)和3个数据集进行预处理；

第2步、利用信息增益(IG)算法对预处理后的数据集中的特征进行重要性衡量，并把特征按照重要性进行降序排序；

第3步、利用递归特征消除(RFE)算法对预处理后的数据集中的特性进行重要性衡量，同样把特征按照重要性进行降序排序；

第4步、利用提出的二分规则特征融合(BRF)方法把由第2步和第3步得到的特性序列进行特征融合处理，得到最终的特征序列；

第5步、把得到的最终特征序列数据输入到随机森林(RF)分类模型中进行训练与测试，输出诊断结果。

2.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法，其特征在于：第1步所述对数据进行预处理。为了表明本发明提出方法的可行性，将该方法运用到3个国际乳腺癌数据集上，但发明中所有的说明过程都以威斯康乳腺癌数据集Breast-cancer-wisconsin(BCW)为例，其他两种数据集也做类似操作，具体步骤如下：

第1.1步、数据清洗，该数据集有9个属性，分类2类，共286个实例，原始数据集中部分特征的数据是字符型，因此需把字符型转化为数值型，若发现有缺失值，本发明将缺失值所在列的平均值来填充；

第1.2步、数据标签化，BCW数据集2类别为recurrence-events和no-recurrence-events，分别标签化为0和1，同时也对数据集的9个属性数据进行标签化。

3.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法，其特征在于：第2步所述的利用信息增益(IG)算法对预处理后的数据集中的特征进行重要性衡量具体步骤如下：

第2.1步、计算数据集的熵：

第2.2步、计算数据集的条件熵：

第2.3步、计算特征Y对训练数据集X的信息增益：g(X，Y)＝H(X)-H(X|Y)。

4.根据权利要求1所述的基于二分特征融合随机森林算法的乳腺癌诊断方法，其特征在于，第3步所述利用递归特征消除(RFE)算法对预处理后的数据集中的特性进行重要性衡量，由以下步骤组成：

第3.1步、初始化原始特征集合S＝[1，2，...X]，特征排序集R＝[ ]；

第3.2步、循环以下步骤直至S＝[ ]

第3.2.1步、获取带候选特征集合的训练样本；

第3.2.2步、用式训练分类器，得到ω；

第3.2.3步、用式子k＝1，2...，|S|计算排序准则得分；