[发明专利]一种基于随机森林的人口数量预测方法在审

专利信息
申请号: 202110826722.2 申请日: 2021-07-21
公开(公告)号: CN113743453A 公开(公告)日: 2021-12-03
发明(设计)人: 高蓝宇;张宸;代子风;韩松杰;张长胜;张斌 申请(专利权)人: 东北大学
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 大连理工大学专利中心 21200 代理人: 陈玲玉
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 随机 森林 人口数量 预测 方法
【权利要求书】:

1.一种基于随机森林的人口数量预测方法,其特征在于,包括以下步骤:

步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况;

步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征;

步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p;

步骤4:首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建;设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:

2.根据权利要求1所述的方法,其特征在于,所述步骤1的具体过程为:

步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补;设人口指标数据集D*中含有完整指标D*a和缺失数据的指标D*b,其缺失的年份为Yb;将D*a中除Yb年份以外的数据作为线性回归的自变量,将D*b中Yb年份的数据作为因变量,构建预测模型,预测出D*b中Yb年份的数据填补进空缺当中;

步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补;对于这类多个年份空值的情况,将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y);通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。

3.根据权利要求1或2所述的方法,其特征在于,所述步骤2的具体过程为:

步骤2.1:使用相关性检测方法从指标数据中去处冗余特征;需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除;相关系数大于0.8,两个指标之间存在强的线性关系;对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据;

步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度;

步骤2.3:使用随机森林的方法提取影响人口数量的关键特征;抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征;通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度;选择占主要贡献度的特征作为预处理结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110826722.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top