[发明专利]一种数据去重方法及设备在审
申请号: | 202110645059.6 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113688122A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 段稳过 | 申请(专利权)人: | 上海万物新生环保科技集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 汪祖乐 |
地址: | 200433 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方法 设备 | ||
本申请的目的是提供一种数据去重方法及设备,本申请通过获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户,并对所有历史数据进行去重处理得到至少一条历史无重数据;获取当前日期内所产生的所有的新增数据,并对所有的新增数据进行去重处理,得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户;对至少一条历史无重数据和至少一条新增无重数据进行全关联操作,得到截止当前日期的至少两条综合无重数据及其对应的最新时间,实现了对历史数据和新增数据的去重,不仅提高了计算效率,还降低了计算成本。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据去重方法及设备。
背景技术
现有技术中,随着数据信息量的不断增加,会涉及到对大量数据的加工,比如,对一定时间内的大量数据进行去重计算,尤其适用于历史数据较多且每日新增数据较少的计算场景。例如,目前各大平台网站等均需要计算一定时间内的用户访问量,当平台发展到一定级别,用户的历史数据量就是大量的数据;相对而言,新增用户的数据量就会减少。现有技术中通用的方法为:对规定的时间用标准的代码进行去重操作,具体代码如下:
Select pin from表A where dt=“2021-01-01”group by pin;
此种处理方法会对时间范围内的所有历史数据进行计算,且每天需要进行计算,浪费计算资源。
例如:某网站每天大量用户进行访问,每一次对网站进行浏览就会生成一条浏览数据,因此当前用户一天内就会生成N条数据,在一定时间后就会生成大量的浏览数据。如果每天需要计算近1年内用户访问量,所需要处理的数据范围就是1年内所有数据,在实际应用场景中,每天都需要对1年内的数据量和当天新生成的新增数据进行去重计算,如图1所示,因此会耗费大量资源进行数据去重的重复计算,从而导致计算资源的浪费,增加数据处理的成本。
发明内容
本申请的一个目的是提供一种数据去重方法及设备,实现了与现有技术具有相同的计算资源和计算数据背景下,采取对数据进行分而治之的策略,不仅避免了对历史的全量数据进行扫描,还能处理新增数据和历史数据的重复问题,从而大大提高了计算效率,降低了计算成本。
根据本申请的一个方面,提供了一种数据去重方法,其中,所述方法包括:
获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户,并对所述所有历史数据进行去重处理,得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户;
获取当前日期内所产生的所有的新增数据及其对应的当前发生时间、第二数据类型及所属第二用户,并对所述所有的新增数据进行去重处理,得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户;
基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户,对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作,得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间。
进一步地,上述方法中,所述对所述所有历史数据进行去重处理,得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户,包括:
根据所属第一用户的不同,对所述所有历史数据进行分组,得到每个所述第一用户的至少一条历史数据及其对应的历史发生时间和数据类型;
按照所述历史发生时间的先后顺序,分别对每个所述第一用户的至少一条历史数据进行排序;并分别将每个所述第一用户的至少一条历史数据中的、每种第一数据类型对应的历史数据中排序第一的历史数据作为历史无重数据,同时,分别将每个所述第一用户的至少一条历史数据中的、每种第一数据类型对应的历史数据中除所述排序第一的历史数据以外的历史数据进行去重处理,得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海万物新生环保科技集团有限公司,未经上海万物新生环保科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110645059.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置