[发明专利]一种统计数据的存储和查询方法有效
| 申请号: | 201310701529.1 | 申请日: | 2013-12-19 |
| 公开(公告)号: | CN103678627B | 公开(公告)日: | 2017-04-19 |
| 发明(设计)人: | 罗鹰;何祖刚;林康;侯勇军;伍宏宁 | 申请(专利权)人: | 成都科来软件有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 梁田 |
| 地址: | 610000 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 统计数据 存储 查询 方法 | ||
技术领域
本发明涉及信息技术处理领域,尤其涉及一种统计数据的存储和查询方法。
背景技术
在网络数据分析领域中经常需要对网络中的数据包或数据流进行细致的分析和统计,以获取某个具体时间段内的数据统计情况,例如某个IP在指定时间段内的产生的网络数据信息(发送接收的字节数、数据包数等统计值),或者某个TCP会话在指定时间段内产生的网络数据信息(持续的时长、平均包长、连接响应时间等)、再或者某个物理会话在指定时间段内产生的网络数据信息(发送接收的字节数、广播数据包数,组播数据包数)等。
在网络数据分析领域中,存在着大量需要统计的数据,并且这些统计的数据很可能每秒都在发生,我们需要将这些每秒都在产生的大量统计数据及时的保存在持久的存储设备上(磁盘等存储设备),而且数据在被保存后可能需要查询一个指定时间段内的统计结果。
时间段:用一个开始时间戳和一个结束时间戳描述,表示从开始时间开始一直持续到结束时间(不包括结束时间)的这个时间段。时间段是一个左闭右开的区间,例如[1388505601, 1388505700)表示的就是从2014-01-01 00:00:00到2014-01-01 00:01:40这1分钟40秒的时间段。时间桶:持续时长为N秒,并且开始时间戳为N的整数倍的时间段称为时间桶。常用时间桶有1秒桶、1分钟桶、1小时桶、1天桶等。如1秒桶是指任意一个时长为1秒的时间段;1分钟桶是指开始时间戳为60的整数倍,并且时长为60秒的时间段;10分钟桶是指开始时间戳为600的整数倍,并且时长为600秒的时间段;其他时间桶类推。
在数据分析和挖掘领域中,常常会出现以下情况:原始数据在整个数据分析过程中都可能发生(持续不断的或者间断性的发生),我们需要对每一秒发生的原始数据都进行细致和全面的分析,得到关于原始数据的统计数据。这些统计数据需要被存储下来,并且在事后需要按照给定的时间段对统计结果进行查询。
如果我们对每一秒的原始数据都进行统计,就可以获得每一秒的统计数据。如果需要统计的信息非常多,那么1秒的统计数据就可能占用不小的存储空间。当1秒的统计数据达到十几兆字节或者更多时,将会在两方面带来很大的压力:
统计数据的存储时长将会变得十分有限。假设1秒钟有16MB的统计数据需要保存,那么对于一个容量为1TB(=1048576MB)的存储空间来说,只能保存1048576MB /16MB =65536秒(18个小时左右)的统计数据。
统计数据的事后查询将会变得十分缓慢和低效。假设需要查询两个小时的统计数据,那么就需要从存储设备中读取16MB/秒 x 7200秒 = 112.5GB的统计数据,对于磁盘这种低速存储设备,这么大量的数据读取将会是非常耗时的。更近一步,这么大量的统计数据被读取出来之后,还需要进行统计合并操作,这也将是一个非常耗时的运算过程。
现有的网络数据分析工具一般只分析一个指定时间段内的数据或者一个数据包文件的数据,逐个分析数据包产生统计结果,并产生一个整体的统计结果,分析得到统计数据的过程随着数据量的增加可能会耗时较长。
本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
在现有技术中,由于现有的统计数据存储和查询方法只分析一个指定时间段内的数据或者一个数据包文件的数据,逐个分析数据包产生统计结果,并产生一个整体的统计结果,所以,现有的统计数据存储和查询方法存在只能存储较短时间的统计数据,以及查询统计数据需要大量时间,效率较低的技术问题。
发明内容
本申请实施例通过提供一种统计数据的存储和查询方法,解决了现有技术中现有的统计数据存储和查询方法存在只能存储较短时间的统计数据,以及查询统计数据需要大量时间,效率较低的技术问题,实现了能够存储较长时间的统计数据,以及查询统计数据需要时间短,效率较高的技术效果。
为解决上述技术问题,本申请实施例一方面提供了一种统计数据的存储方法,所述方法包括:
根据不同的时间桶分别建立相应的缓冲层;
将低级时间桶统计数据存入低级统计数据缓冲层;
将所述低级时间桶统计数据进行数据合并得到高级时间桶统计数据;
将所述高级时间桶统计数据进行存储。
进一步的,所述缓冲层能容纳的时间桶统计数据的容量为:高一级时间桶的时长/本级时间桶的时长。
进一步的,所述将所述低级时间桶统计数据进行数据合并得到高级时间桶统计数据具体包括:
(1)提交所述低级时间桶统计数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都科来软件有限公司,未经成都科来软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310701529.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种针对关联关系的语义区分能力度量方法
- 下一篇:网站点评的方法和装置





