[发明专利]海量归档流数据存储方法有效
| 申请号: | 200910044402.0 | 申请日: | 2009-09-25 |
| 公开(公告)号: | CN101692226A | 公开(公告)日: | 2010-04-07 |
| 发明(设计)人: | 杜凯;王怀民;杨树强 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
| 代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
| 地址: | 410073 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 海量 归档 数据 存储 方法 | ||
技术领域
本发明涉及计算机领域数据存储方法,尤其是一种建立在计算机集群系统之上的海量归档流数据存储方法。
背景技术
随着计算机网络和存储技术的发展,在网络安全管理、网络搜索、通信、金融、科学实验等诸多领域出现了一类海量数据存储分析的新兴需求,这类需求需要存储持续高速产生的海量结构化数据,并挖掘该类数据中隐藏的规律性知识。例如,在网络安全应用中,对网络通信的报文头信息进行实时存储、查询和分析是常见的网络安全管理手段,该类数据具有典型的写一次读多次的归档特性,且由于其持续产生,生成速度快(一个普通的Gbit的网络连接产生的报文数可达每秒10万,其数据生成速度达几十MB每秒),所以形成的系统规模很大。类似的应用还有:在网络搜索引擎,需要依据用户个人信息如以往搜索的习惯和关注点等,为其提供更符合其喜好的搜索结果;在电信行业中,日常电话通信过程会产生大量的通话详细信息,如通信双方的电话号码,通话开始时间和结束时间,通话双方的地点等。这类信息被广泛用于用户个人事后查询,运营商分析消费模式或发现盗打行为,以及公共安全部门侦查等用途。
数据库技术是当前存储管理海量数据的主流技术,但由于归档流数据庞大的数据规模和极快的产生速度,现有数据库技术在存储管理海量归档流数据方面存在三个方面的问题难以解决:数据规模、访问性能、数据可靠性。
1)数据规模。现有的典型关系数据库的数据规模一般在10GB(GigaBytes,109Bytes)或100GB级别,较少达到TB(TeraBytes,1012Bytes)级别,规模有限。而归档流数据存储系统规模动辄几十TB,甚至达到PB(PeraBytes,1015Bytes)级,在系统规模达到一定程度后如此规模时,系统组件数目很大(可能是数千节点组成)导致故障率较高,现有的基于日志的数据访问模式和故障恢复模式难以满足数据访问性能需求和故障恢复性能需求,需要考虑采用新的存储方法来管理这类海量数据。
2)访问性能。现有的数据库技术主要用于处理关系型的数据,强调数据操作的事物特性,为此引入了基于事务的提交、回滚、加锁、日志管理等开销较大的管理机制(研究表明,该机制占整个请求处理近70%的时间开销);而归档流数据具有独特的写一次不再更新的特性,无需复杂繁琐的事务管理机制,可以考虑采用新的存储手段来提高数据访问性能。
3)数据可靠性。现有的数据库技术一般采用基于日志的方法,通过每个数据库对应一组日志文件进行串行逻辑导出导入的方式来恢复数据。但归档流数据存储系统规模庞大,存在故障率高、待恢复数据规模大的问题,传统的逻辑串行数据恢复方法难以满足大规模系统的数据恢复需求,因此需要新的数据恢复方法。
因此,如何依据归档流数据的特性解决海量归档流数据的存储,提高归档流数据的管理规模、访问性能和可靠性是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题是:提供一种海量归档流数据的存储方法,将归档流数据存储系统分割为实时存储和归档存储两部分,在两个部分分别缩短故障恢复时间来提高存储系统可靠性,使得存储系统在规模较大(如达到PB(PB=1*1015Bytes)级别)时,仍具有较高的可靠性。在实时存储部分(以下称加载池),通过减小在线存储规模来提高非归档数据库的恢复速度;在归档存储部分(以下称归档池),通过采用随机分布归档数据库副本和分布并行恢复方法来缩短归档数据的恢复时间。
本发明的技术方案是:由加载池存储实时数据,从实时数据中周期性生成只读的数据库MiniRDB,采用随机分布方法将MiniRDB的多副本分布存储到归档池中,最后在归档池中采用分布式恢复方法对MiniRDB进行恢复。
本发明具体步骤如下:
第一步,构建加载池和归档池,加载池实时存储高速产生的归档流数据,归档池存储从加载池转移出来的更大规模的归档数据:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910044402.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:感应加热烹调器
- 下一篇:多重无线电接入技术中的数据传输
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





