[发明专利]数据分布统计方法有效
申请号: | 200710307139.0 | 申请日: | 2007-12-27 |
公开(公告)号: | CN101231649A | 公开(公告)日: | 2008-07-30 |
发明(设计)人: | 吴双 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 胡海国;王艳春 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分布 统计 方法 | ||
技术领域
本发明涉及电数字数据处理领域,特别涉及数据分布统计方法。
背景技术
随着网络技术和应用的飞速发展,大量用户通过网络访问海量资源,统计资源的点击率和访问量等参数需要进行复杂运算,占用资源。
发明内容
本发明目的在于提供一种数据分布统计方法,提高数据统计效率。
本发明提供一种数据分布统计方法,包括:将访问记录分布定位的步骤;根据记录建立索引的步骤;通过索引进行统计的步骤。
优选地,上述记录包括键和至少一属性,键的取值为键值,属性的取值为属性值。
优选地,上述将访问记录分布定位的步骤包括:根据记录的属性值将记录定位到区域中的步骤;根据记录的键值将记录定位到区域的簇中的步骤;将记录定位到簇的节点中的步骤。
优选地,上述根据记录建立索引的步骤包括:按照至少一属性分别建立子索引,将属性值相同的记录的键值列入子索引中的步骤。
优选地,上述按照至少一属性分别建立子索引,将属性值相同的记录的键值列入子索引中的步骤包括:查找对应属性的子索引的步骤;将访问记录的键值加入已存在的对应属性子索引中的步骤;建立与访问记录属性对应的子索引,将访问记录的键值加入子索引中的步骤。
优选地,上述根据记录建立索引的步骤包括:建立主索引,将子索引中记录的键值及其对应计数记入主索引中的步骤。
优选地,上述建立主索引,将子索引中的键值及其对应计数记入主索引中的步骤包括:建立主索引;设主索引指针指向主索引头部,设子索引指针指向子索引头部;判断当前主索引指针和子索引指针分别指向的键值是否相等,相等则主索引中键值的计数加1;判断子索引指针指向的键值是否小于主索引指针指向的键值,如果小于则将子索引指针后移一位指向下一记录;如果大于则将主索引指针后移一位指向下一键值;判断子索引指针是否指向子索引尾部,尚未指向尾部则指针后移一位指向下一键值,返回判断当前主索引指针和子索引指针分别指向的键值是否相等,循环直到子索引指针指向子索引尾部。
优选地,上述通过索引进行统计的步骤是指读取主索引,取得键值及其对应计数作为统计结果。
优选地,上述数据分布统计方法在节点中统计访问记录,在簇中整合属于簇的所有节点的统计结果,在区域中汇总属于区域的所有簇的统计结果。
本发明提供的数据分布统计方法,以一个有100个节点,数据量为1000亿的群集为例,设其记录的键值数量为10亿,键值使用整数表示,每个键值占用4个字节,平均分布在100个节点中,每个节点的所有子索引大致占用40M(40亿*4/100)存储空间。设每个节点有5个子索引,则每个子索引只存储8M的数据,而主索引就集合了80M(40亿*8/100)数据。当需要对所有记录进行统计时,采用本发明可以在1秒内的时间内处理完毕,即不占用大量资源,也无需集中运算,大大提高统计效率。
附图说明
图1是本发明第一实施例的三层次结构示意图;
图2是本发明第二实施例子索引示意图;
图3是本发明第二实施例主索引示意图;
图4是本发明第二实施例建立子索引的流程示意图;
图5是本发明第二实施例建立主索引的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本发明提出第一实施例,本实施例提出将网络上的服务器或计算机在逻辑上分为区域、簇和节点三层次结构。如图1所示,将网络上进行具体数据存储和/或处理的单位称为节点,服务器、计算机、手持设备甚至虚拟主机都可以作为一个节点;多个节点组成一个簇,多个簇组成一个区域,节点、簇和区域都是虚拟概念而非局限于实体。
区域、簇和节点的组织逻辑为:每个簇可以有簇和节点两种子节点,每个节点都有一定的存储和/或处理能力,数据量超出存储和/或处理能力可能引起不稳定或速度降低。每当某个节点数据量达到其存储和/或处理能力极限的时候,就将一个节点分裂为多个节点,而原节点就转化为一个新簇,新簇依然隶属于原簇。
本实施例根据用户对各站点或网络资源的每次访问都形成一条记录,每条记录都有一个唯一标示该记录的键。参照表1,每条记录都有多个属性,每个属性都有若干取值,属性的取值为属性值;每条记录都有一个键,键的取值称为键值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710307139.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种GDX1/X2包装机条盒反包检测装置
- 下一篇:蜂花粉保健醋的制作方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置