[发明专利]一种基于内容分块的远程文件实时更新方法有效
申请号: | 201410029703.7 | 申请日: | 2014-01-22 |
公开(公告)号: | CN103729225A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 廖湘科;李珊珊;刘晓东;彭绍亮;谢欣伟;贾周阳;董德尊;张菁;林彬;孔志印;刘磊 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;H04L29/08 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 分块 远程 文件 实时 更新 方法 | ||
技术领域
本发明涉及分布式存储系统中数据更新方法,尤其指支持广域网级应用的分布式存储系统中的数据更新方法。
背景技术
随着云存储的快速发展,存储技术正在发生革命性的变化。传统文件系统已无法满足海量数据存储的需求,分布式存储系统应运而生。典型的分布式存储系统包括主从结构的分布式文件系统如Google公司的GFS(Google File System)、开源项目Hadoop的HDFS,以及扁平式环形结构的key-value存储系统如Amazon公司的Dynamo、Facebook公司的Cassandra等。
分布式存储系统在存储容量、可扩展性、可靠性以及性能等方面表现出了特有的优势,因而在海量数据处理中的应用越来越广泛,正逐渐演变成企业IT框架的一个部分。然而,现有的主流分布式存储系统虽然在大容量、可伸缩性等方面能够提供很好支持,但也存在诸多问题,目前主流的分布式存储系统,如GFS、HDFS等,大部分文件的更新是通过添加新数据完成的,而不是改变已存在的数据,即只支持文件的追加操作,而不支持文件的随机写。
CDC是基于内容分块(content-defined chunking)的简称,是重复数据删除技术中所广泛采用的一种检测不同文件中相同数据内容的技术。其基本思想是基于文件内容对文件进行分块,从而能够最大限度地检测出不同文件中的相同内容。其基本方法是用一个固定大小的滑动窗口从头到尾扫描文件内容,每次移动窗口都采用RabinFingerpring算法(Broder A Z.的文章Some applications of Rabin’s fingerprinting method所述)计算一个48位指纹序列,并将指纹与一个初始定义的指纹相比,若相等则从当前窗口处将文件断开分块。分块的基础是一段内容,即对比原文件产生的指纹和新文件产生的指纹,而不是固定的大小,从而可以最大限度地检测出不同文件之中相同的数据块。现有的方法主要将更新文件完全发回分布式存储系统,会加重网络传输开销和影响存储系统的IO网络性能,尤其是在IO访问量较大的情况。
如何解决分布式存储系统更新开销高,普遍不支持文件随机写的问题是本领域技术人员关注的重要技术问题,有效减少文件更新过程中的网络传输开销,可应用于支持广域网级应用的分布式存储系统,但目前主流的GFS、HDFS等分布式存储系统也存在着不足,只支持文件的追加操作,而不支持文件的随机写。
发明内容
本发明要解决的技术问题是为支持广域网级应用的分布式存储系统提供一种低网络传输开销的文件增量更新方法,使得分布式存储系统能以较低的开销支持文件随机写。为方便描述,记在云端服务器存贮的原文件为Fold,用户更新后文件为Fnew。
本发明的技术方案包括以下步骤:
第一步,对Fold文件分块存储。为了在文件更新过程中减少通过网络传输的数据量,将文件分块存储,在文件内容发生变化的时候,对比更新前后的文件内容,确定发生变化的数据块,在更新时只传输发生变化的数据块,减少传输的数据量,降低网络传输开销,提高文件更新的效率。
采用固定大小分块的策略将文件分成n块,按顺序将文件从前往后划分成大小相同的数据块,数据块的大小K可根据应用不同设置,默认K是2M,记每一个数据块为chunk1、chunk2、…、chunkn,最后一个数据块chunkn的大小小于或等于其他数据块的大小,n为正整数,n=L/K上取整,其中K为文件大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410029703.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于汽轮机排汽缸的导流环
- 下一篇:一体化叶轮
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法