[发明专利]用户访问数量统计方法及其系统有效
申请号: | 201610509565.1 | 申请日: | 2016-06-30 |
公开(公告)号: | CN106899426B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 田金元 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06F16/958 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇;王中 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 访问 数量 统计 方法 及其 系统 | ||
本申请公开一种用户访问数量统计方法及其系统,其中所述方法包括:获取预设时间段内用户访问业务数据的访问信息;对所述访问信息进行分组及去重处理得到统计数据;根据所述统计数据统计业务数据的独立访客数据。通过本申请能够有效避免分布式计算统计访问量指标时出现的数据倾斜。
技术领域
本申请涉及计算机技术领域,尤其涉及一种用户访问数量统计方法及其系统。
背景技术
目前,每天都会有大量的用户登录电子商务平台(例如支付宝客户端),有些用户在电子商务平台的停留时间会比较长,点击访问的产品会比较的多,这样就会产生大量的访问浏览痕迹。
在每天离线统计电子商务平台中的每个产品的当日总的访问UV(独立访客,Unique Visitor)时,由于每天电子商务平台的访问点击量都已经达到N百亿级别的数据量,数据存储都已经快达到TB级别的数据量。
现有技术中的一种统计UV的方案是直接根据产品来分组,然后对用户进行合并去重后再计算UV。但是由于每个产品对应的用户是分布不均匀的,在分布式计算UV时会产生严重的数据倾斜,即会导致一个数据统计,在分布式集群系统上运行很长时间都无法产生运行结果的情况。对于数据倾斜严重的去重汇总统计,分布式集群系统有时候会挂死(hang死)的情况。因此有必要提出改进的技术手段解决上述问题。
发明内容
本申请的主要目的在于提供一种用户访问数量统计方法及其系统,以解决现有技术的统计用户UV导致的数据倾斜的问题。
为了解决上述问题,根据本申请实施例提供一种用户访问数量统计方法,其包括:获取预设时间段内用户访问业务数据的访问信息;对所述访问信息进行分组及去重处理得到统计数据;根据所述统计数据统计业务数据的独立访客数据。
其中,所述访问信息包括:用户标识信息、业务数据标识信息、业务数据对应的页面标识信息。
其中,所述对所述访问信息进行分组及去重处理的步骤,包括:根据所述业务数据标识信息对所述访问信息进行第一次分组;根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述访问信息还包括:页面对应的控件的标识信息;所述对所述访问信息进行分组及去重处理的步骤,包括:根据所述业务数据标识信息对所述访问信息进行第一次分组;根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述方法还包括:通过分布式计算统计业务数据的独立访客数据。
其中,所述方法还包括:通过用户访问日志表获取所述访问信息。
根据本申请实施例还提供一种用户访问数量统计系统,其包括:获取模块,用于获取预设时间段内用户访问业务数据的访问信息;分组及去重模块,用于对所述访问信息进行分组及去重处理得到统计数据;统计模块,用于根据所述统计数据统计业务数据的独立访客数据。
其中,所述访问信息包括:用户标识信息、业务数据标识信息、业务数据对应的页面标识信息。
其中,所述分组及去重模块包括:第一分组模块,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;第二分组模块,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;第一去重模块,用于对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610509565.1/2.html,转载请声明来源钻瓜专利网。