[发明专利]一种基于随机森林模型的人口数据空间化方法在审

申请号：	201611004450.3	申请日：	2016-11-15
公开（公告）号：	CN106650618A	公开（公告）日：	2017-05-10
发明（设计）人：	柳林;谭敏;刘凯	申请（专利权）人：	中山大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	广州粤高专利商标代理有限公司44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于随机森林模型人口数据空间方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人口数据空间化的理论领域，更具体地，涉及一种基于随机森林模型的人口数据空间化方法；该方法可以应用于科学制定区域发展规划、灾害风险防范与救助、经济建设、环境与生态保护等相关政策中所需的人口信息的精确快捷获取。

技术背景

作为生产力中最重要的因素，人口的集聚不仅会产生集聚效应，在降低人均生活成本的同时还能提高土地集约利用程度，但是如果人口的增长超过某一地区土地的负载能力，就会破坏环境和生态的良性循环，最后损害人类自身。而且随着人口密度的不断增加，城市在面临例如火灾、地震、台风、洪水等传统威胁的同时，也给城市管理带来了新的问题，如交通拥挤、公共设施承载量过大、城市部件大量增加等。这些问题与城市人口的分布都有着密切关系。

当前广泛使用的人口数据通常是以行政区划为单元，通过普查、抽样统计等方式逐级汇总获得的典型人口统计数据，在实际应用中存在以下三方面的不足：第一，时间分辨率低，全国人口普查每10年1次，数据更新周期长，难以准确揭示人口状况的。第二，空间分辨率低，以行政区为单元获得的人口数据在行政单元内是均匀分布的，不能体现人口数据的空间分布特征；第三，不利于多源数据融合和综合空间分析，以行政区为单元的统计数据与自然地理单元存在空间不匹配的问题，限制了人口统计数据在多学科领域的应用。所以非常有必要将人口数据网格化，利于实现人口数据与其它社会统计数据、资源数据、环境数据融合，提高人口、资源、环境综合管理能力。

随着科学技术的不断进步，特别是近年来地球信息科学的突飞猛进，遥感影像信息提取可以提供大量变量因子空间分布和变化的信息，遥感技术和GIS技术结合使用而进行人口数据空间化的方法发展迅速，取得了巨大成就，但还存在着精度较低、模型运行速度较慢、变量因子解释性差的不足。

随机森林模型指的是利用多棵树对样本进行训练并预测的一种分类器，该分类器可以输入大量变量，快速学习后输出高准确度的分类或回归结果，同时评估变量的重要性，不会产生过拟合的问题。随机森林以其上述优点非常适合用于人口数据的空间化，可快速学习变量因子与人口数据之间的关系并给出变量因子的重要性评价。

发明内容

本发明所要解决的技术问题在于，提供一种快速且准确、能够大幅度提高人口数据空间化精度的基于随机森林模型的人口数据空间化方法。

为达到上述目的，本发明提供的基于随机森林模型的人口数据空间化方法，包括以下步骤：

(1)获取行政区的常住人口数、灯光数据以及其它对人口分布具有影响的自然和社会经济因素的原始数据，对数据进行预处理，得到变量因子距离数据、灯光数据、行政区人口密度的对数和二值化栅格转换后的变量因子数据；

(2)统计各个行政区内的每个变量因子的平均值或最常出现的值并匹配到行政区边界；

(3)将步骤(1)预处理后得到的变量因子距离数据、灯光数据和行政区人口密度的对数、二值化变量因子栅格数据、步骤(2)得到的变量因子的平均值或最常出现值作为随机森林模型的输入，来寻找变量因子与人口密度的对数之间的关系并输出变量因子重要性，基于这个关系反演出L×L米网格的人口数，得到人口数据空间化的初步结果；

(4)利用分区密度制图修正人口数据空间化的初步结果，最终实现基于随机森林模型的L米网格的人口数据空间化。

所述的步骤(1)中的预处理进一步包括：

步骤S11，将所有空间数据转换成统一投影坐标系以及参考椭球体。

步骤S12，将行政区的常住人口数除以行政区面积得到行政区的人口密度，并对人口密度取对数；

步骤S13，对灯光数据进行双线性的重采样成L×L米的栅格；

步骤S14，对建成区、河流、水体、道路等其它对人口分布具有影响的自然和社会经济变量因子进行欧氏距离计算。

步骤S15，对其它矢量格式的对人口分布具有影响的自然和社会经济变量因子进行二值化栅格转换。

所述的步骤(1)中步骤S15的二值化栅格转换是将矢量格式的变量因子转换成栅格格式，并和行政区范围进行合并，0表示变量因子为空，1表示变量因子不为空。

上述的一种基于随机森林模型的L米网格的人口分布的估算方法，其特征在于：所述的步骤(2)中的统计各个行政区内的每个变量因子的平均值或最常出现的值具体是指对于变量因子的距离数据及其他连续变量因子进行平均值的统计，对于二值化的变量因子栅格数据进行最常出现值的统计。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】