[发明专利]一种基于决策树和改进SMOTE算法的哮喘病诊断系统有效
申请号: | 202110302072.1 | 申请日: | 2021-03-22 |
公开(公告)号: | CN112951413B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 刘志锋;马芽;崔玉宝;陈文;夏莉敏;周从华 | 申请(专利权)人: | 江苏大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06F18/23213 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 决策树 改进 smote 算法 哮喘病 诊断 系统 | ||
1.一种基于决策树和改进SMOTE算法的哮喘病诊断系统,其特征在于,包括数据采集与处理模块、过采样处理模块、决策树训练模块、检测模块和诊断应用模块;所述数据采集与处理模块用于采集血常规体检数据,并对采集的数据进行缺失值清洗、填充缺失值内容或重新取数、删除内容不符合数据、去除重复值或不合理值,保证数据之间的正确关联性处理;离散数据进行One-Hot编码处理;将预处理后的数据输入过采样处理模块;所述过采样处理模块用于对输入的数据进行处理,将PSO与SMOTE优化算法处理平衡后的数据分为训练样本集和验证样本集两组;所述决策树训练模块采用CART回归树算法搭建哮喘病诊断模型,使用MEP后剪枝算法计算误差并进行剪枝,避免欠拟合风险;再利用训练样本集进行哮喘病诊断训练;所述检测模块用于加载训练好的哮喘病诊断模型,利用验证样本集对训练好的哮喘病诊断模型进行验证;所述诊断应用模块利用训练好的哮喘疾病诊断模型作为最终应用模型,用于哮喘病的辅助诊断;
所述过采样处理模块包括以下步骤:
S2.1:采用K-means聚类算法对少数类样本进行聚类,形成固定K个簇并记录下每一个簇心:
其中xi代表数据集中第i个数据样本,ωj表示第j个聚类簇;zj表示第j个聚类簇的簇心;
S2.2:在少数类样本与其最临近n个样本中选取m个采样点,采样率使用PSO粒子群算法进行优化:
其中,b1和b2为加速常数,前者为每个粒子的个体的个体学习因子,后者为每个粒子的社会学习因子,w代表惯性因子,其值为非负,i表示第i个粒子,d表示粒子的第d个维度,v代表的是速度,x代表位置;r1,r2表示两位位于[0,1]的随机数,pbest[i]是指粒子取得最高或最低适应度的位置,gbest[i]是指整个系统取得最高或最低适应度时的位置;
S2.3:选择好原始点和采样率之后,生成新的少数类样本:
Xnew=X+rand(0,1)*(Mi-X),i=1,2,,,,N
其中,Xnew为新插入样本;X为选择的原始样本数据;rand(0,1)表示0与1之间的某一个随机数;Mi为原始样本数据X的最临近中通过PSO优化后的最佳采样点;
S2.4:如果在样本新样本位置中,少数类样本与多数类样本的比例小于1/2,则保留样本,否则重新插值生成新样本;
S2.5:当少数类样本个数与多数类样本个数达到平衡,结束循环,否则继续生成新样本。
2.如权利要求1所述的基于决策树和改进SMOTE算法的哮喘病诊断系统,其特征在于,所述数据采集与处理模块包括数据采集和数据清洗,具体包括以下内容:数据采集:获取血常规数据;
缺失值清洗:确定缺失值范围,对每个字段计算缺失值比例,按照缺失值比例和字段重要性,采用以下的方式清洗:去除不需要字段、无意义的字段;填充缺失值的内容或重新取数;
格式内容清洗:时间日期数值显示格式、内容中不该存在的字符、字段内容与该字段应有内容不符;
逻辑错误清洗:包括去重、去除不合理值、修正矛盾内容;
非需求数据清洗:对不需要的字段进行删除处理;
关联性验证:在数据来源于多张表或数据库的情况下,保证数据之间关联的正确性,防止数据之间出现关联错误或是互相矛盾的情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110302072.1/1.html,转载请声明来源钻瓜专利网。