[发明专利]一种基于随机森林的人口数量预测方法在审
| 申请号: | 202110826722.2 | 申请日: | 2021-07-21 |
| 公开(公告)号: | CN113743453A | 公开(公告)日: | 2021-12-03 |
| 发明(设计)人: | 高蓝宇;张宸;代子风;韩松杰;张长胜;张斌 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 陈玲玉 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 随机 森林 人口数量 预测 方法 | ||
1.一种基于随机森林的人口数量预测方法,其特征在于,包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况;
步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征;
步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p;
步骤4:首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建;设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
2.根据权利要求1所述的方法,其特征在于,所述步骤1的具体过程为:
步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补;设人口指标数据集D*中含有完整指标D*a和缺失数据的指标D*b,其缺失的年份为Yb;将D*a中除Yb年份以外的数据作为线性回归的自变量,将D*b中Yb年份的数据作为因变量,构建预测模型,预测出D*b中Yb年份的数据填补进空缺当中;
步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补;对于这类多个年份空值的情况,将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y);通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤2的具体过程为:
步骤2.1:使用相关性检测方法从指标数据中去处冗余特征;需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除;相关系数大于0.8,两个指标之间存在强的线性关系;对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据;
步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度;
步骤2.3:使用随机森林的方法提取影响人口数量的关键特征;抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征;通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度;选择占主要贡献度的特征作为预处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110826722.2/1.html,转载请声明来源钻瓜专利网。





