[发明专利]一种基于多重特征对比和随机森林算法的结果预测方法在审
申请号: | 202210770544.0 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115099149A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 葛方丽;姚文清;曲鹏宇;辜钰婷;赵清波;薛兵;陈思 | 申请(专利权)人: | 郑州信大先进技术研究院 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 郑州德勤知识产权代理有限公司 41128 | 代理人: | 黄红梅 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多重 特征 对比 随机 森林 算法 结果 预测 方法 | ||
本发明公开了一种基于多重特征对比和随机森林算法的结果预测方法:基于诊断测量数据集成为数据源集;对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理;将处理后的数据源集存储在数据库当中;采用随机森林算法建立机器学习模型,并且通过K折交叉验证,验证随机森林模型的有效性,再通过超参数调优对模型进行参数优化;通过计算混淆矩阵和分类报告参数对模型进行评估;通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;通过应用随机森林模型进行发病结果的预测。
技术领域
本发明涉及数据分析领域,更具体地,涉及一种基于多重特征对比和随机森林算法的结果预测方法。
背景技术
随着计算机技术的不断发展,大数据技术、人工智能(AI)等等成为当今世界计算机发展的潮流趋势,借助计算机,通过机器学习能够用来预测疾病的发生概率,这一重大技术的进步使得探索出治愈疾病的医疗方法成为可能。
通过对国内外疾病预测相关研究现状的调查发现,国内外专家学者对于疾病的研究具有很大程度上的相似性,都采用机器学习算法以及深度神经网络算法来预测疾病,这说明机器学习算法以及深度神经网络算法对于此类数据预测效率更高,算法适用性更强。其中,通过对采用的机器学习算法的调查发现,采用的算法总体上有逻辑回归算法、决策树算法、Boost算法、SVC算法、随机森林算法、高斯贝叶斯算法等,然而通过对于这些算法的对比研究发现,随机森林普遍适用性更好,性能效率表现更高。然而如何通过随机森林算法建立预测模型,以及如何对所建立的模型进行优化,以此来适用数据的预测,以及后期数据的可视化设计就成为了一个重要的研究问题。
发明内容
针对现有技术的缺陷,本发明提供了一种基于多重特征对比和随机森林算法的结果预测方法:
步骤1,基于诊断测量数据集成为数据源集;
步骤2,对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理,随后把数据源集划分为测试集与训练集;
步骤3,将处理后的数据源集存储在数据库当中;
步骤4,采用随机森林算法建立机器学习模型,并且验证随机森林模型的有效性,再对模型进行参数优化;
步骤5,通过计算混淆矩阵和分类报告参数对模型进行评估;
步骤6,通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;
步骤7,通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;
步骤8,通过应用随机森林模型进行发病结果的预测。
本发明的技术方案,相对于传统的语义分析方法,具有以下技术效果:
(1)能够对不同维度的属性变量进行数据可视化表现,可以快速寻找到有关影响预测结果的相关因素;
(2)本发明基于多种维度属性的数据和1种分类属性的数据作为数据研究的对象,因此对于数据的处理保证了数据一致性与真实性,可以使预测结果更加真实有效,说服力更强;
(3)采用随机森林算法建立预测模型,可以使预测效率和预测精度更高;
(4)发明中采用的可视化分析技术结构简单明了,可以更加直观细致的了解到有关预测结果信息。
附图说明
图1为本发明方法的框架图。
图2是本发明所采用的随机森林算法的工作流程示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大先进技术研究院,未经郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210770544.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:踏板力传感器和踏板力检测系统
- 下一篇:一种晶上系统封装结构