[发明专利]一种基于多种方法集成学习的缺失值插补方法在审

专利信息
申请号: 202110113055.3 申请日: 2021-01-27
公开(公告)号: CN112817954A 公开(公告)日: 2021-05-18
发明(设计)人: 胡安民;吴超然;李镇 申请(专利权)人: 胡安民;吴超然;李镇
主分类号: G06F16/215 分类号: G06F16/215;G06K9/62;G06N20/20
代理公司: 成都智弘知识产权代理有限公司 51275 代理人: 李小华
地址: 518003 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多种 方法 集成 学习 缺失 值插补
【说明书】:

发明提供一种基于多种方法集成学习的缺失值插补方法,其包括:步骤S1:提取原始数据;步骤S2:筛选部分缺失变量;步骤S3:缺失值的简单插补;步骤S4:缺失值的特征变量筛选;步骤S5:10折交叉验证;步骤S6:缺失值的多重插补;步骤S7‑S8:迭代覆盖原来的简单插补数据;步骤S9:分别预测缺失比例大的变量。本发明运用多种方法进行缺失值的预测,尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息,增加缺失数据预测的准确性和预测的效率。

技术领域

本发明涉及缺失数据填补领域,特别是一种基于多种方法集成学习的缺失值插补算法。

背景技术

目前大数据相关研究已广泛应用在诸多领域,然后再实际的数据提取过程中常常存在部分数据的缺失。由于目前大多数基于统计方法或机器学习算法构建模型时需要所有数据均完整,因此缺失数据的存在使研究无法顺利进行。一方面如果简单粗暴地剔除缺失数据变量将会遗漏模型相关信息,另一方面如果通过简单的插补直接影响着后期预测模型的准确性。

发明目的:为解决上述技术问题,尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息,增加缺失数据预测的准确性和预测的效率,本发明提供一种基于多种方法集成学习后的缺失数据填补算法。

鉴于上述缺陷,本发明创作者经过长时间的研究和时间终于获得了本发明。

发明内容

为实现上述技术效果,本发明提出的技术方案为:一种基于多种方法集成学习后的缺失值插补方法,该算法包括步骤:

步骤S1:提取原始数据,将其标记为全特征数据集。

步骤S2:识别全特征数据集中的缺失值变量(分类变量或连续性变量),将所有缺失值变量记录为变量集1,将缺失值小于或等于50%的变量记录为变量集2,将缺失值超过50%的变量记录为变量集3。剔除全特征数据集中缺失值超过50%的缺失值变量,识别缺失值变量并记录为数据集1。

步骤S3:依次对数据集1中存在缺失值的分类变量进行随机变量插补,连续性变量进行均值插补,并标记为数据集2。

步骤S4:基于数据集2中的简单插补数据,选择数据集1中的N个缺失变量利用随机森林(Random Forest,RF)算法进行特征变量筛选,并分别记录为N个特征变量数据集(1,2,...,N)。

步骤S5:对N个特征变量数据集依次通过10折交叉验证标记数据,并依次记录为N个模型集。

步骤S6:对N个模型集基于编号依次分为10个训练集和测试集,依次对训练集进行多种方法的建模后通过测试集验证,其算法包括:数值型变量首先计算95%置信区间,然后通过多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法依次构建模型预测缺失值,接着剔除预测值中超过95%置信区间的潜在异常值,最终缺失值的预测值为剩余模型预测值的均值;分类变量首先分别基于K最近邻(K-Nearest Neighbors,KNN)算法、支持向量机(Support Vector Machines,SVM)算法、随机森林(Random Forest,RF)算法、极限剔除提升(eXtreme Gradient Boosting,xgboost)算法和深度神经网络(Deep Neural Network,DNN)算法对缺失值进行分类预测,然后剔除ROC曲线下面积(AreaUnder Curve,AUC)小于0.7的模型,最后基于剩余模型预测值再次通过RF集成学习后得到最终缺失值的预测值。

步骤S7:基于步骤S6中的N个插补模型,依次对数据集2中的缺失值变量进行多种插补后合并数据集,并记录为多重插补数据集1。

步骤S8:基于多重插补数据集1,重复步骤S4-S7两次,得到迭代的多重插补数据集2和多重插补数据3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡安民;吴超然;李镇,未经胡安民;吴超然;李镇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110113055.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top