[发明专利]一种新的压缩比特位图索引的方法有效
| 申请号: | 201410182226.8 | 申请日: | 2014-04-30 |
| 公开(公告)号: | CN103942329B | 公开(公告)日: | 2017-10-10 |
| 发明(设计)人: | 陈震;温禹豪;马戈;曹军威 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京众合诚成知识产权代理有限公司11246 | 代理人: | 黄家俊 |
| 地址: | 100084 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 压缩 比特 位图 索引 方法 | ||
技术领域
本发明涉及计算机网络或大数据分析领域,特别涉及一种新的压缩比特位图索引的方法。
背景技术
互联网技术的迅猛发展把我们带进了信息爆炸的时代,海量信息内容极大丰富了用户。而移动互联网的爆发,使得用户可以从任何地方,任何时间访问网络上的任何内容,产生更为丰富流量数据。
据思科(Cisco)公司预测,任何一家大型互联网公司在日常运营中生成和累计的用户流量数据是相当庞大的,以至于不能用千兆(Giga,G)或万亿(Trillion,T)级字节的数据来衡量。为此,思科曾预言,网络的数据流量在2011到2016年之间将以4倍的速率增长,并于2016年达到1.3泽(Zetta,十万亿亿)字节。据中国联通的数据,联通WCDMA3G网络移动用户流量的年复合增长率为135%,目前已经达到5千万亿字节(Petabyte,PB)规模。
对网络的内容和运行状况监控,保证网络健康正常地运行已成为一项重要工作。在中国“十二五”规划纲要第三篇第十三章第二节中,已经明确提出要“加强网络与信息安全保障”,充分体验了国家对信息安全的重视。而网络的自由性造成了网络攻击的普遍性。在网络链路方面,网络中某个节点的错误配置可能会给整个网络带来灾难性的后果;网络攻击会造成链路的阻塞,服务器的崩溃,甚至是局部网络通信的中断。在网络内容方面,人们可以在各个地方上传不良信息,进行非法活动,给其他互联网的使用者带来不好的思想、精神、经济等方面的影响和损失。由于这些行为常常不能在发生时被发现,因此需要对网络流量进行记录,以供后期进行研究、分析和举证。
流量记录的一项核心技术是高速网包索引,流量记录的目的是为以后检索与查找,从而识别可能的网络事件。以10Gbps链路为例,如果按每个网包64字节计算,每秒将达1400万网包,产生的索引量巨大,检索查找速度慢。
因特网服务提供商(Internet Service Provider,ISP)管理和运行的大型的高速网络,链路速度在10-100Gbps级,即每秒中产生的数据量为1-10GB量级,如果要进行流量的记录,代价非常高。这样的设备和技术的价格也是一般用户无法承受的。而同时,互联网的发展使得许多公司拥有自己的企业网络,也有许多公司将自己的服务器托管到因特网数据中心(Internet Data Center,IDC)运行。这样的局部网络的数目非常庞大,他们的网络带宽一般在100~1000Mbps。管理这些局部的网络也是一个非常现实的问题,为这样的网络设计和实现廉价的网络流量记录工具具有很大的应用前景。
网包的索引信息具有以下一些特点:海量、数据结构固定、只增不改、重复性较高。海量是指网包索引信息条数众多,一天可以产生几百万条甚至上亿条索引信息。数据结构固定是指每一条网包的索引信息都有固定的格式和固定的长短。只增不改是指网包的索引信息只会不断增加,一旦产生,以后不可能也不需要在进行修改。重复性高指就每一个域来看,一个域中的千万条数据出现大量的重复。这些特点导致使用关系型数据库处理这样的数据效率并不高,因为传统的关系型数据库是面向更改的,储存在数据库中的数据需要经常的改动。
Bitmap压缩数据库
Bitmap索引数据库专门为科学数据而设计,这些数据通常是由科学仪器或是科学仿真产生的,特点是数据量极其大,而且不再更改。Bitmap索引数据库解决了如何在海量的科学数据中快速的找出那些需要的少量的数据的问题,而传统关系型数据库并不适合这项任务。
Bitmap索引数据库中用到的技术主要是Bitmap索引、Bitmap压缩和归类。在Bitmap索引数据库中,数据是按列存储的,一个列的数据存储在一起,并做Bitmap索引。一个简单的Bitmap索引的例子如图1所示。其中RowID表示对应值在表中第几行,生成的索引是一个矩阵,矩阵中每一行只有一个1,其余都是零,标1的位置对应于该行数据在这一列上的取值。这样生成的Bitmap索引有一个比较大的缺点,索引的列数随着取值的多样话而线性增长。为了控制索引的大小和查询时间,需要对索引压缩和归类。压缩是减小索引中大量0或1带来的空间消耗,归类是对Bitmap索引的一些列的合并。比如值1.01和1.02可以归类成1。通过归类可以减少Bitmap索引的列数,增加查询和储存的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410182226.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:冗余的融合IP信号上屏的处理器实现方法
- 下一篇:一种方便折叠刷牙杯





