[发明专利]一种基于第三方的用户数据统计方法及系统在审

专利信息
申请号: 201710106103.X 申请日: 2017-02-25
公开(公告)号: CN106919677A 公开(公告)日: 2017-07-04
发明(设计)人: 张元康 申请(专利权)人: 浙江沛宏网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京维正专利代理有限公司11508 代理人: 林乐飞
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 第三 用户数 据统计 方法 系统
【说明书】:

技术领域

发明涉及基于第三方的用户数据统计方法及系统。

背景技术

随着通信技术的快速发展,通过即时通讯应用来进行通信的用户越来越多。为了保证用户之间通信的可靠性,需要对使用该即时通讯应用的用户数据进行统计,例如,当某个国家的用户数据出现异常时,可以通过该国家中每个城市统计的用户数据,来确定该国家中的哪个城市出现了通信故障,从而基于通信故障进行有针对性的修复,以保证用户之间通信的可靠性。

进入2012年,大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据量。

近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。行业/企业大数据动辄达到数百TB甚至数十至数百PB,如此数量级的大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此寻求有效的大数据处理技术已经成为现实世界的迫切需求。

随着客户端功能的丰富,各种APP应用越来越多,每一种APP都涉及到了用户相关行为的统计分析功能,即所谓的大数据统计分析需求。而为了实现大数据的统计分析,首先必须能够在大范围内收集用户在客户端的行为日志数据,即用户数据记录。现有技术中,用户数据记录技术主要分为两种,一种为客户端记录用户数据,该用户数据实时入数据库;另一种为客户端记录用户数据后,该用户数据存入消息队列或者缓存服务器中,实现异步入数据库。当用户数据数量较大时,第一种方式会对数据库以及数据库服务器造成很大的压力;第二种方式能减小数据库和数据库服务器的压力,但会在消息队列或者缓存服务器中存在瓶颈,最终限制数据库以及数据库服务器的数据吞吐量,整体上降低用户数据的记录效率。

发明内容

针对现有技术存在的不足,本发明的主要目的是提供一种提高数据记录效率的基于第三方的用户数据统计方法及系统。

本发明的上述技术目的是通过以下技术方案得以实现的:

第一方面,提供一种基于第三方的用户数据统计方法。

所述方法包括:

客户端对记录的m条n维用户数据进行一次统计,即将原始数据按列组成n行m列矩阵X;

客户端将一次统计数据发送给统计服务器,统计服务器对接收到的所述一次统计数据进行二次统计,即:

步骤1,将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值;

步骤2,求出协方差矩阵C=1/mXXT

步骤3,求出协方差矩阵的特征值及对应的特征向量;

步骤4,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;

步骤5,Y=PX即为降维到k维后的数据;

统计服务器将二次统计数据发送给数据库服务器以使数据库服务器将所述二次统计数据写入数据库。

通过上述设置,对于客户端的数据采集量庞大,通过对数据的整理,采用降维的方式,缩小数据在数据库上的存储量,从而可以提高数据记录的效率以及在不改变硬件服务器数据容量的情况下可以承载更多的数据信息。

作为本发明的具体方案可以优选为:所述客户端获取用户数据的方式包括采集游览器的后台数据记录、用户访问记录。

通过上述设置,客户端借助现有技术,可以很容易的获得需要处理的大量数据,从而借助本方法,实现有效的数据整理,并将数据存储到数据库,结合本发明的技术方案,可以改善现有技术中对于数据的存储的容量问题。

作为本发明的具体方案可以优选为:原始的用户数据包括浏览量,访客数,下单数,成交数,成交金额,并形成5维矩阵。

通过上述设置,在对于一些网店数据统计过程中,通常由于数据量的庞大,系统运行缓慢,采用此5维矩阵,可以有效记录需要处理的数据,并且调取整理方便。

作为本发明的具体方案可以优选为:在数据库服务器写入数据库前,发送数据库请求,多个数据库接收所述请求并根据数据库的冗余量设置应答时间,冗余量越大应答时间设置越小。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江沛宏网络科技有限公司,未经浙江沛宏网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710106103.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top