[发明专利]部分去重复的文件的优化有效

专利信息
申请号: 201210320201.0 申请日: 2012-08-31
公开(公告)号: CN102880663A 公开(公告)日: 2013-01-16
发明(设计)人: R·卡拉赫;K·哈桑;P·A·奥尔泰安;J·R·本顿;C·H·张;A·古普塔 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海专利商标事务所有限公司 31100 代理人: 胡利鸣
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 部分 重复 文件 优化
【说明书】:

技术领域

发明涉及部分去重复的文件的优化。

背景技术

数据去重复(有时也称为数据优化)指的是检测、唯一地标识以及消除存储系统中的冗余数据从而减少需要被存储在盘上或需要通过网络进行传送的数据的物理字节量,而不会损害原始数据的保真性和完整性。通过减少存储和/或传送数据所需的资源,数据去重复因此导致硬件和功率成本(用于存储)以及数据管理成本(例如,降低备份成本)的节约。随着数字存储的数据的数量增长,这些成本节约变得重要。

数据去重复通常使用用于消除持久存储的文件内部及其之间的冗余性的技术的组合。一种这样的技术用于标识一个或多个文件中的相同数据区域,并在物理上只存储一个唯一区域(块),同时为此数据的所有重复出现与文件相关联地维护对该块的引用。另一技术是例如通过存储经压缩的块来将数据去重复与压缩混合。

关于数据去重复可能存在许多困难、折衷和选择,包括在一些环境中,在给定可用时间和资源的条件下在单个操作中存在过多的数据要去重复。具体的挑战存在于被部分地去重复的文件,比如响应于新数据或对现有数据的修改而被部分召回到盘的之前被去重复的文件。对被部分去重复的文件整体进行去重复需要:大量的输入/输出资源以用于读取整个文件并对其进行分块(chunking)并且然后将所述块写入到块存储中;以及CPU资源以用于执行分块和压缩。

发明内容

提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。

简言之,在此所描述的主题的各方面所针对的是,通过把具有一个或多个未去重复的部分的文件变换成完全去重复的文件来优化部分去重复的文件。在一个方面,去重复机制通过如下方式对未去重复的部分执行去重复进程:标识出涵盖该未去重复的部分的一个或多个块;以及定义与所述一个或多个块相关联的文件偏移量之间的一个或多个新块。与所述一个或多个新块相关联的块边界与该文件的未召回的去重复的部分的块不重叠。通过维护与未召回的去重复的部分的对齐,所述一个或多个新块可以被提交给块存储而不必修改任何其他块。在另一方面,与该文件相关联的去重复元数据被修改为包括所述块边界以及与所述一个或多个新块相关联的其他信息,并且与所述一个或多个块相关联的任何元数据都可以被替换。

在另一方面,该文件可以被分区成子文件分区以简化去重复进程。去重复机制在每个去重复进程期间一次对单个子文件分区进行分块和提交。然后,去重复机制在对下一子文件分区进行去重复以前从该文件中截去(truncate)该子文件分区。如果去重复进程在完成子文件分区的去重复以前被暂停,则去重复进程可以在已被提交的最后一个块之后的位置处恢复。

附图说明

作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:

图1是示出根据一个示例性实施方式的用于优化被部分去重复的文件的示例系统的框图图示。

图2是表示根据一个示例性实施方式的去重复机制的示例性组件/阶段的框图。

图3A-图4B示出了根据一个示例性实施方式被变换成完全去重复文件的各种示例性部分召回的文件。

图3C示出了根据一个示例性实施方式被变换成完全去重复文件的示例性部分去重复文件。

图4A-图4B示出了根据一个示例性实施方式的去重复元数据。

图5是示出了根据一个示例性实施方式用于将具有至少一个未去重复部分的文件变换成完全去重复的文件的步骤的流程图。

图6是示出了根据一个示例性实施方式用于对被分区成子文件分区的文件进行去重复的步骤的流程图。

图7是表示其中可实现此处描述的各种实施例的示例性非限制联网环境的框图。

图8是表示其中可实现此处所描述的各种实施例的一个或多个方面的示例性非限制计算系统或操作环境的框图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210320201.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top