[发明专利]一种针对wifi探针采集的海量数据的去重方法及系统有效
| 申请号: | 201910649217.8 | 申请日: | 2019-07-18 |
| 公开(公告)号: | CN110389946B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 林树阳 | 申请(专利权)人: | 福建威盾科技集团有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;H04L43/02;H04W24/08 |
| 代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 赵桂芳 |
| 地址: | 362000 福建省泉*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 wifi 探针 采集 海量 数据 方法 系统 | ||
本发明属于大数据技术领域,公开了一种针对wifi探针采集的海量数据的去重方法及系统,判断每条数据是新上线或是在线记录;定时从Redis取key2在线记录写入Elasticsearch的轨迹表;从跨天的Kafka topic取出S102写入的跨天数据后,将数据写入跨天Elasticsearch索引,并删除对应的Redis数据,同时删除原来在轨迹索引的记录。本发明提供了一种针对wifi探针采集的海量数据的去重方法,将WIFI探针采集的数据按一定的规则进行去重;本发明针对Wi‑Fi探针采集的海量数据的去重方法,可以为使用者过滤大量的无用数据,可以减少要存储的数据量,避免了读取无用数据,有效提高海量数据的处理。
技术领域
本发明属于大数据技术领域,涉及一种针对wifi探针采集的海量数据的去重方法及系统。
背景技术
Wi-Fi采集数据量较大,目前按照1分钟去重方式,如果一个人在一个采集点驻留2个小时,那么按照此去重方式会产生120条数据,但是对于使用者而言,只要进入的时间和离开的时间就够了,现在在同一条记录上同时保存上线时间和离开时间就只需要保存一条记录。同时规定同一个终端在采集设备上前后被采集到的两条记录的时间差超过30分钟(此时间可以调整,以下分析按30分钟设计)则为重新上线。
综上所述,现有技术存在的问题是:
Wi-Fi采集数据量较大,会采集到大量的重复的数据,造成海量数据的处理效率低下,不能节约使用成本。
解决上述技术问题的难度:
对所有wifi探针采集到的终端进行缓存,然后进行比对,还要考虑大数据的并发性。
解决上述技术问题的意义:
挖掘有效的数据,提高数据的利用率,并且减少数据的储存,节约使用成本。
发明内容
针对现有技术存在的问题,本发明提供了一种针对wifi探针采集的海量数据的去重方法及系统。
本发明是这样实现的,一种针对wifi探针采集的海量数据的去重方法。所述针对wifi探针采集的海量数据的去重方法包括以下步骤:
步骤一,判断每条数据是新上线或是在线记录。
步骤二,定时从Redis取key2在线记录写入Elasticsearch的轨迹表。
步骤三,从跨天的Kafka topic取出S102写入的跨天数据后,将数据写入跨天Elasticsearch索引,并删除对应的Redis数据,同时删除原来在轨迹索引的记录。
进一步,所述步骤一具体包括:
根据数据到Redis获取key1值,判断是否获取到,没有获取到执行点1,有获取到执行点2。
执行点1:没有获取到key1,则是新上线的值,执行以下步骤:
步骤1:将该条数据插入Elasticsearch的轨迹表(实际是写入Kafka,再从Kafka写到Elasticsearch)。
步骤2:插入key1值(采集时间和上线时间都为当前数据的采集时间)。
步骤3:结束。
执行点2:获取到key1,将当前的采集时间和获取到的key1的采集时间相减,判断时间差:
第一种情况:时间差超过30分钟,则为最新的上线数据,执行点1的步骤。
第二种情况:时间差没有超过30分钟,执行以下步骤:
步骤1:更新key1值(采集时间为当前采集时间,上线时间不变)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建威盾科技集团有限公司,未经福建威盾科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910649217.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种游戏监控系统及监控方法
- 下一篇:一种黑名单生成方法、装置、设备及介质





