[发明专利]一种网络流量数据索引方法及系统有效
申请号: | 201310698101.6 | 申请日: | 2013-12-18 |
公开(公告)号: | CN103714134B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 贺泰华;张广兴;谢高岗;董尚文;付乔宾 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络流量 数据 索引 方法 系统 | ||
技术领域
本发明涉及计算机网络流量存储,特别涉及一种网络流量数据索引方法及系统。
背景技术
随着网络应用和用户的增加,网络流数据的规模越来越大,普通小型网络或者校园规模的网络流量带宽都已经到达1-10Gbps的速度,如此高速的网络链路带给网络流量存储与检索系统巨大的挑战。为了满足网络管理及网络取证等需求,系统应保证既能够实时存储网络数据流量,又可以在大规模网络数据集上进行高效的检索操作。例如,在网络取证操作中,运营商需要使用能方便有效地扫描存储的数据集的工具来检测入侵活动。当前,网络历史流量大多采用以下两种存储方法:第一种是存储流记录,常见的流记录采集、存储方法有sFlow、NetFlow和IPFIX等,这些方法仅仅保存了粗略的网络统计信息;另一种是存储网络的所有数据包,这些数据包不仅包含了头部信息,而且也包含了部分甚至全部的载荷内容。无论是存储流记录还是存储数据包,如何快速的检索这些流量数据是非常关键的。通常我们会对存储的流量数据建立索引以满足之后的查询工作。在面对高速链路、大规模网络和复杂多样应用时,仍旧存在着大量的挑战。网络流量的索引方法必须支持高速的实时插入速度、快速的查询响应以及较小的存储空间。
在流量索引方法的研究方面,目前主要有三种索引方法:哈希索引,多路搜索树索引以及位图索引方法:
(1)哈希索引方法:网络流量存储系统Time-Machine就是采用这种索引方法。此方法在开始阶段,每次记录的插入只会消耗较小的CPU时间。但是随着记录数目的增加,由于哈希链冲突的不断增加,之后的插入操作将会花费大量的时间去查找哈希表中的对应存储位置。此外,由于哈希索引方法只支持单域的相等性查找,很难支持区间查找和多域组合查找。
(2)多路搜索树索引方法:许多传统关系型数据库都是采用多路搜索树索引方法。但是由于多路搜索树在插入和检索过程中都需要采用二分查找操作去找到插入和检索记录的位置,而且如果采用传统的方法索引的更新会带来很多磁盘随机读写操作。所以多路搜索树并不能支持非常快的索引插入和查询速度。
(3)位图索引方法:位图索引方法已经在许多数据存储领域广泛使用。此方法被证实非常适用于海量只读数据的索引和查询工作。至今为止已经存在使用位图索引方法非常优秀的数据库,比如FastBit。但是由于位图索引方法产生的索引文件非常巨大,尽管存在一些优秀的索引压缩编码方法,但是对于磁盘存储空间的消耗以及每次查询从磁盘读入索引文件的时间开销都是一个不可避免的缺点。
由于上述方法在网络流量的快速索引以及查询方面存在着不同程度的缺点,从而使得这些方法不能够真正应用于10Gbps及以上的高速链路环境中。上述情况迫切要求我们既能够实时地对高速链路环境下的网络数据流量进行存储,又能够对历史数据流量进行快速查询检索。
在现有技术中,如发明名称为“一种海量历史数据的存储及索引方法”,该发明公开了一种海量历史数据的存储及索引方法,属于实时历史数据库领域。该方法根据分布式文件系统将大文件进行分块存储的特点,给出了一种简单高效的海量历史数据文件的存储方法和一种高效的分布式索引机制。该存储方法可以保证满足当前海量历史数据文件的存储要求,更保证具有在线扩展的特性;索引机制可以实现对海量历史数据的快速访问,同时在系统进行资源扩展以后,即底层物理存储发生变化时,该索引在无需修改的情况下依旧可以实现对数据的查找功能。但是该发明的方法更侧重分布式的存储和索引方法,用大文件分块存储来保证效率。而不是专注于索引算法本身的优化,没有针对海量网络流量数据特征进行优化。
发明内容
为了解决上述问题,本发明的目的在于,提供一种能有效地支持实时高速流量记录的索引建立工作的网络流量数据索引方法及系统,即使在较小索引磁盘空间消耗的情况下,也能支持快速的索引查询操作。
为实现上述目的,本发明提出一种网络流量数据索引方法,其特征在于,包括下列步骤:
步骤1,实时捕获网络流量数据;
步骤2,所述网络流量数据具有多个索引字段,在内存中通过对所述索引字段维护位图-字典树来建立并存储所述网络流量数据的索引结构,对于所述索引字段按字节来划分键值,通过使所述键值在所述位图-字典树的位图结构中所对应的非叶子节点的指针具有孩子节点、叶子节点的指针指向存储位置链表来更新所述网络流量数据的索引结构;
步骤3,根据用户的查询请求查询所述索引结构从而获得网络流量数据的存储位置信息,将该存储位置信息返回给用户,用户根据该存储位置信息获取响应的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310698101.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:注塑机顶出油缸
- 下一篇:一种用于钢塑复合管脱模后的架体装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置