[发明专利]数据分布统计方法有效

专利信息
申请号: 200710307139.0 申请日: 2007-12-27
公开(公告)号: CN101231649A 公开(公告)日: 2008-07-30
发明(设计)人: 吴双 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京英赛嘉华知识产权代理有限责任公司 代理人: 胡海国;王艳春
地址: 518044广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 分布 统计 方法
【说明书】:

技术领域

发明涉及电数字数据处理领域,特别涉及数据分布统计方法。

背景技术

随着网络技术和应用的飞速发展,大量用户通过网络访问海量资源,统计资源的点击率和访问量等参数需要进行复杂运算,占用资源。

发明内容

本发明目的在于提供一种数据分布统计方法,提高数据统计效率。

本发明提供一种数据分布统计方法,包括:将访问记录分布定位的步骤;根据记录建立索引的步骤;通过索引进行统计的步骤。

优选地,上述记录包括键和至少一属性,键的取值为键值,属性的取值为属性值。

优选地,上述将访问记录分布定位的步骤包括:根据记录的属性值将记录定位到区域中的步骤;根据记录的键值将记录定位到区域的簇中的步骤;将记录定位到簇的节点中的步骤。

优选地,上述根据记录建立索引的步骤包括:按照至少一属性分别建立子索引,将属性值相同的记录的键值列入子索引中的步骤。

优选地,上述按照至少一属性分别建立子索引,将属性值相同的记录的键值列入子索引中的步骤包括:查找对应属性的子索引的步骤;将访问记录的键值加入已存在的对应属性子索引中的步骤;建立与访问记录属性对应的子索引,将访问记录的键值加入子索引中的步骤。

优选地,上述根据记录建立索引的步骤包括:建立主索引,将子索引中记录的键值及其对应计数记入主索引中的步骤。

优选地,上述建立主索引,将子索引中的键值及其对应计数记入主索引中的步骤包括:建立主索引;设主索引指针指向主索引头部,设子索引指针指向子索引头部;判断当前主索引指针和子索引指针分别指向的键值是否相等,相等则主索引中键值的计数加1;判断子索引指针指向的键值是否小于主索引指针指向的键值,如果小于则将子索引指针后移一位指向下一记录;如果大于则将主索引指针后移一位指向下一键值;判断子索引指针是否指向子索引尾部,尚未指向尾部则指针后移一位指向下一键值,返回判断当前主索引指针和子索引指针分别指向的键值是否相等,循环直到子索引指针指向子索引尾部。

优选地,上述通过索引进行统计的步骤是指读取主索引,取得键值及其对应计数作为统计结果。

优选地,上述数据分布统计方法在节点中统计访问记录,在簇中整合属于簇的所有节点的统计结果,在区域中汇总属于区域的所有簇的统计结果。

本发明提供的数据分布统计方法,以一个有100个节点,数据量为1000亿的群集为例,设其记录的键值数量为10亿,键值使用整数表示,每个键值占用4个字节,平均分布在100个节点中,每个节点的所有子索引大致占用40M(40亿*4/100)存储空间。设每个节点有5个子索引,则每个子索引只存储8M的数据,而主索引就集合了80M(40亿*8/100)数据。当需要对所有记录进行统计时,采用本发明可以在1秒内的时间内处理完毕,即不占用大量资源,也无需集中运算,大大提高统计效率。

附图说明

图1是本发明第一实施例的三层次结构示意图;

图2是本发明第二实施例子索引示意图;

图3是本发明第二实施例主索引示意图;

图4是本发明第二实施例建立子索引的流程示意图;

图5是本发明第二实施例建立主索引的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

本发明提出第一实施例,本实施例提出将网络上的服务器或计算机在逻辑上分为区域、簇和节点三层次结构。如图1所示,将网络上进行具体数据存储和/或处理的单位称为节点,服务器、计算机、手持设备甚至虚拟主机都可以作为一个节点;多个节点组成一个簇,多个簇组成一个区域,节点、簇和区域都是虚拟概念而非局限于实体。

区域、簇和节点的组织逻辑为:每个簇可以有簇和节点两种子节点,每个节点都有一定的存储和/或处理能力,数据量超出存储和/或处理能力可能引起不稳定或速度降低。每当某个节点数据量达到其存储和/或处理能力极限的时候,就将一个节点分裂为多个节点,而原节点就转化为一个新簇,新簇依然隶属于原簇。

本实施例根据用户对各站点或网络资源的每次访问都形成一条记录,每条记录都有一个唯一标示该记录的键。参照表1,每条记录都有多个属性,每个属性都有若干取值,属性的取值为属性值;每条记录都有一个键,键的取值称为键值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710307139.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top