[发明专利]一种基于随机森林的子宫内膜肿瘤分类标记方法在审
申请号: | 202010505813.1 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111860576A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 唐震洲;周铭琰;李方靖;林凤;金楚;许方怡;易新凯;王岩;孔令剑 | 申请(专利权)人: | 温州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 温州名创知识产权代理有限公司 33258 | 代理人: | 陈加利 |
地址: | 325000 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 子宫 内膜 肿瘤 分类 标记 方法 | ||
本发明提供一种基于随机森林的子宫内膜肿瘤分类标记方法,包括获取子宫内膜恶性及良性肿瘤数据为样本数据并经归一化处理后,划分出测试集和多个训练集;对每一个训练集进行决策树训练,得到相应CART决策树模型;评估每个CART决策树模型的所有特征,得到相应的特征集;对每个特征集均通过基尼指数比对选出最优特征来进行分支处理,得到决策树并形成随机森林模型;采用粒子群算法对随机森林模型优化并导入测试集,得到训练好的随机森林模型;获取待测子宫内膜肿瘤数据并导入训练好的随机森林模型中,区别出良性或恶性肿瘤数据。实施本发明,可以处理连续、离散和混合的子宫内膜肿瘤数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于随机森林的子宫内膜肿瘤分类标记方法。
背景技术
在高速发展的互联网时代,机器学习的出现和应用正深刻改变着医疗行业。在此之前,医学数据的收集分析是一件充满挑战和困难的事。但如今,机器学习通过对数据的分析与处理,能够准确清晰的实现设定的方案并交付结果。
目前,国内外针对子宫内膜肿瘤数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等,但这些算法的精确度不是很理想,无法处理连续、离散和混合的大数据集,尤其是在缺失数据较多的情况下,准确度会随着数据缺失而快速降低。
因此,亟需一种行之有效的算法对子宫内膜肿瘤数据进行分析,可以处理连续、离散和混合的大数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于随机森林的子宫内膜肿瘤分类标记方法,可以处理连续、离散和混合的子宫内膜肿瘤数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
为了解决上述技术问题,本发明实施例提供了一种基于随机森林的子宫内膜肿瘤分类标记方法,包括以下步骤:
步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
步骤S2、选取决策树类型为CART,并分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标,并按照基尼指数从小到大的顺序进行排序剪枝;
步骤S5、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
步骤S6、获取待测子宫内膜肿瘤数据,并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。
其中,以所述归一化处理后的样本数据总量的约25%随机组合为一份数据集作为测试集,剩下的75%作为训练数据。从训练数据中有放回随机采样选出n个样本为一份,占数据总量的50%,形成N个不相同的训练集,用来产生N棵CART树。
其中,所述通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集的步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学,未经温州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010505813.1/2.html,转载请声明来源钻瓜专利网。