[发明专利]一种基于多重特征对比和随机森林算法的结果预测方法在审
| 申请号: | 202210770544.0 | 申请日: | 2022-06-30 |
| 公开(公告)号: | CN115099149A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 葛方丽;姚文清;曲鹏宇;辜钰婷;赵清波;薛兵;陈思 | 申请(专利权)人: | 郑州信大先进技术研究院 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
| 代理公司: | 郑州德勤知识产权代理有限公司 41128 | 代理人: | 黄红梅 |
| 地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多重 特征 对比 随机 森林 算法 结果 预测 方法 | ||
1.一种基于多重特征对比和随机森林算法的结果预测方法,其特征在于:
步骤1,基于诊断测量数据集成为数据源集;
步骤2,对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理,随后把数据源集划分为测试集与训练集;
步骤3,将处理后的数据源集存储在数据库当中;
步骤4,采用随机森林算法建立机器学习模型,并且验证随机森林模型的有效性,再对模型进行参数优化;
步骤5,通过计算混淆矩阵和分类报告参数对模型进行评估;
步骤6,通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;
步骤7,通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;
步骤8,通过应用随机森林模型进行发病结果的预测。
2.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤2中对数据源文件进行数据处理,具体表现为:
步骤2-1,如果数据中存在异常数据,则通过直接删除的方式删除离散值较大的数据;
步骤2-2:如果数据中存在空值,用特定列的平均值或中值替换数据中存在的空值;
步骤2-3,在数据分割之前,将数据转换为使用sklearn-preprocessing方法的分位数。
3.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤4具体表示为:
步骤4-1,所采用的随机森林分类是由多组决策树分类模型{h(x,θr),r=1,2,…}构成的组合分类模型,其中θr是服从独立同分布的随机变量,其计算公式如下:
式中,F(x)表示组合分类模型,fi(x)表示单个决策树分类模型,Y表示目标变量,I表示示性函数;
步骤4-2:通过10折交叉验证来验证随机森林模型的性能;
将数据预处理后的干净数据集平均分为10个区,在10个区中选择当中9个区作为训练集,而剩余的一个区作为验证集,由此得到10个训练模型;第一个训练模型中得到第1个验证分数,即为第1折,以此循环往复,直到第10个训练模型中得到第10个验证分数,即为第10折,用这10个模型所得到的10个最终验证分数取平均值作为此次10折交叉验证分类器的指标;
步骤4-3:使用网格搜索的方法对模型原始参数进行优化,通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值:先采用大的范围和大的步长来查询,判断全局最优值的大体位置,然后,逐步减少查询的步长和范围,从而查询更加精确的最优值。
4.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤5对混淆矩阵的设计,通过混淆矩阵参数计算分类报告作为模型评估的指标,其计算公式如下:
式中,TP──表示真正例,FP──表示假正例,FN──表示假反例,TN──表示真反例。
5.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤6中皮尔逊相关系数的计算公式如下:
式中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大先进技术研究院,未经郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210770544.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:踏板力传感器和踏板力检测系统
- 下一篇:一种晶上系统封装结构





