[发明专利]一种基于多层排重的虚机快照备份方法和系统有效
申请号: | 201210291388.6 | 申请日: | 2012-08-15 |
公开(公告)号: | CN103593256B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 张为;唐洪;蒋灏;曾月;李小刚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 快照 备份 方法 系统 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种基于多层排重的虚机快照备份方法和系统。
背景技术
目前,一般的虚机系统都为用户提供系统快照服务,即对虚机磁盘镜像进行全量快照备份。虚机快照备份系统是虚机系统的子系统,它管理着PB级别的虚机用户的全部历史数据。因此,提高快照备份系统的存储效率,对于降低用户的虚机使用成本,提高集群的存储使用效率,有着非常重要的影响。为了能够实时、大规模地处理用户的备份数据请求,同时又能够高效地排除掉冗余的数据,虚机快照备份系统需至少满足三个条件:很高的数据处理速度,例如可以在每天夜间的三小时内处理完上万个虚机的备份;很好的排重效果,可以消除绝大多数的冗余数据(例如消除70%以上的冗余数据);较低的资源占用,虚机快照备份系统作为整个虚机系统的子系统,不能与用户的虚机系统中的其他重要模块争抢过多资源,否则会影响到用户对虚机的使用体验。
对虚机快照备份进行排重的技术方案例如有如下:一种技术方案是亚马逊(Amazon)的云计算平台中的EBS快照存储方案,详见(http://aws.amazon.com/ebs/)。该方案将每块虚机磁盘划分成4MB大小的定长分块,并追踪用户使用中对每个分块的改动信息。如果一个分块在备份时被认定为自上次备份快照以来未作改动,则不备份这块数据;另一种技术方案是专业存储技术提供商如EMC的备份排重存储服务器,可以将备份数据按照内容特征切割成变长大小的数据分块,并根据哈希校验比对来侦测出重复的数据。
亚马逊的技术方案完全针对单个虚机的数据修改记录来判断哪些数据需要备份,其弱点在于:首先,即使分块中的数据只被修改了一个字节,整块数据也要被备份一次。其次,对于不同用户备份相同数据的情况,例如操作系统和各种常用软件,由于用户行为的不同导致其数据所在的磁盘位置不可能统一,该方法完全无法侦测到这一类的重复数据。
EMC的技术方案虽然可以根据数据内容特征来在全局范围排除重复的备份数据,但是其专用存储服务器的价格极其昂贵,且无法应对虚机集群这样PB级别的备份需求。这类方案跟以廉价和海量数据为特征的云计算平台是无法兼容的。
发明内容
本发明的主要目的在于提供一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据。
根据本发明的实施例,在该方法中,对所述虚机快照进行多层排重包括:对所述虚机快照进行子数据块排重、数据片段排重和公用数据集排重,其中,所述公用数据集中存储备份存储文件系统中重复率高于预定阈值的数据片段。
根据本发明的实施例,在该方法中,所述子数据块排重包括:判断所述多个子数据块自上次备份以来是否改变;排除被确定为未改变的子数据块;保留被确定为已改变的子数据块。
根据本发明的实施例,在该方法中,所述数据片段排重包括:判断经所述子数据块排重后剩余的所述已改变的子数据块中的多个数据片段自上次备份以来是否改变;排除被确定为未改变的数据片段;保留被确定为已改变的数据片段。
根据本发明的实施例,在该方法中,所述公用数据集排重包括:将经所述数据片段排重后剩余的所述已改变的数据片段的数据特征与所述公用数据集中数据的数据特征进行比较,判断所述已改变的数据片段是否存在于所述公用数据集中,排除被确定存在于所述公用数据集中的数据片段。。
根据本发明的实施例,将每个子数据块划分为多个数据片段的步骤包括:基于数据内容特征,将每个子数据块切割成多个变长的数据片段。。
根据本发明的实施例,所述虚机快照包括子数据块的数据指纹、大小和数据指针;所述子数据块包括数据片段的数据指纹、大小和数据指针。
根据本发明的实施例,该方法还可以包括:对备份存储文件系统进行定期扫描,根据数据存储中的数据重复特征,抽取重复率高于特定阈值的数据并将其存入所述公用数据集。
根据本发明的实施例,该方法还可以包括:对于经由所述多层排重所排除的数据,在虚机快照备份中直接引用虚机前一快照中的对应数据的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210291388.6/2.html,转载请声明来源钻瓜专利网。