[发明专利]一种基于多场景多数据源校验的大数据扩样方法有效
申请号: | 201810491730.4 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108733818B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 刘杰;顾高翔;张颖;吴佳玲;郭鹏;宫龙 | 申请(专利权)人: | 上海世脉信息科技有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/2458;G06F16/23 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 200040 上海市静安区沪太支路536,5*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 多数 校验 数据 方法 | ||
本发明涉及一种基于多场景多数据源校验的大数据扩样方法,本发明对于移动终端大数据进行处理和筛选,由个体所持移动终端和固定传感器之间的通信记录构建出个体出行的时空序列数据集;根据不同的场景类型设计判别规则判别在指定时间段内进出指定场景的个体及其出入次数;获得由第三方仪器测定的指定时间内在指定场景的总人数,将由从个体所持移动终端和固定传感器之间的通信记录挖掘出的个体出入指定场景频次数总和与其对比;不断将新的产生的个体所持移动终端和固定传感器之间的通信记录与第三方仪器监测数据导入分析,采用跨期衰减的方法使用新的扩样参数部分替代旧的扩样参数,实现扩样参数的实时更新。
技术领域
本发明涉及一种基于多场景多数据源相互校验获得的不同尺度下匿名加密时间序列定位数据(大数据)的扩样方法。根据匿名加密时间序列定位数据,对其进行处理获取个体出行轨迹,在其中抓取指定时间段内在特定区域的样本,统计其中的个体样本数量与频次;统计由其他数据源获得的该时段内在特定区域内的个体的总数量,从而获得指定时间段内由匿名加密定位数据得到的大数据个体样本的扩样参数;对微观区域内的扩样参数进行加权处理,获得宏观区域内的大数据扩样参数。
背景技术
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。然而,由移动终端设备产生的数据样本具有极大的有偏性和局限性,即终端设备信令的形成并非来自所有个体,由于多个运营商的存在,以及大量存在同网多卡/异网多卡/无卡等现象,使得单一运营商提供的信令数据难以反映全体样本,因此在大数据的实际应用中通常需要进行扩样。
传统的扩样方法仍较为粗糙,即采用社会统计调查的方法给出静态的外部参数,其调查的成本较高,但得到的参数一般非常宏观,其实现的效果不甚理想,因而扩样方法的缺陷极大地限制了大数据方法的广泛应用。而在现实大数据的产生过程中,某些固定场景存在多种大数据设备同时收集数据的情况(如车站闸机、体育馆检票口、机场安检口等),这就使得大数据扩样参数可以通过多源数据校验来实现。
发明内容
本发明的目的是:采用多数据源交叉验证,以大数据的形式对大数据样本进行动态实时扩样,获得在不同时间空间尺度下的大数据扩样参数。
为了达到上述目的,本发明的技术方案是提供了一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:
步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;
步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;
步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROUP2内的固定传感器的编号,随后再次遍历所有个体出行时空数据集,将时间上连续且标注有相同固定传感器的编号的通信节点合并;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海世脉信息科技有限公司,未经上海世脉信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810491730.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种材料管理的系统和方法
- 下一篇:一种人员档案建立方法和装置