[发明专利]经去重复文件的细粒度部分召回有效
申请号: | 201480010936.0 | 申请日: | 2014-02-26 |
公开(公告)号: | CN105009119B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | P·谢;C·H·张;K·汉萨恩;A·古普塔;R·卡拉赫;D·赫芬布罗克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈小刚 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 文件 细粒度 部分 召回 | ||
本公开涉及基于跟踪脏(写修改)范围(用户写)以消除或最小化读和写已优化相邻数据的方式,来部分召回经去重复文件的文件范围。范围的粒度不依赖于用于跟踪范围的任何文件系统粒度。在一个方面,提供了保留数据完整性和崩溃一致性的跟踪数据的懒惰转储清除在一个方面,还描述了在数据去重复系统正在优化打开文件的同时,支持在该文件上的细粒度部分召回。
数据优化(有时称为数据去重复)指的是减少需要储存在盘上或需要跨网络进行传送的数据的物理字节量而不会损害原始数据的保真性或完整性。通过减少存储和/或传送数据所需的资源,数据优化因此导致硬件成本(用于存储)以及数据管理成本(例如,备份)的节约。随着数字存储的数据的数量增长,这些成本节约变得重要。
数据优化通常使用用于消除持久存储的文件之内和之间的冗余的技术的组合。一种数据去重复技术用于标识一个或多个文件中的数据的相同部分,并在物理上只存储一个唯一区域(块),同时与文件相关联地维护对该块的引用。另一优化技术是例如通过存储经压缩的块来将数据去重复与压缩混合。
经优化/去重复的文件的数据因此被存储在块存储中的诸个块或压缩的块中,其中文件本身被保留为包括对这些块的引用的“残根”。当用户或应用需要访问经去重复的文件时,去重复引擎将数据带回到存储器中(被称为再融合(rehydration))或带回到盘中(被称为召回)。当用户或应用修改该数据时,可能需要召回/再融合旧的经优化数据来确保数据一致性和完整性。
因为需要(可能)解压各块、因为分块引入的文件分割、以及因为块存储的位置/实现,再融合或召回的过程在数据访问时引入等待时间。完整文件召回引入高等待时间和相对可观的I/O开销。当文件较大时,等待时间和资源消耗问题更为恶化。
此外,在完整大文件已被召回时,去重复邀请可能需要再次将该文件去重复。这要求大量资源并影响总体数据去重复吞吐量,考虑到典型的去重复系统需要管理的大量数据,这也是一挑战。
发明内容
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念的选集。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。
简言之,本文公开的主题的各方面涉及一种技术,其中细粒度部分召回机制被配置成与文件相关联地维护跟踪哪一个或多个文件数据范围相对于包括块存储中的干净数据的干净范围而言是脏范围(例如,因为数据写)的信息。每一个脏范围具有独立于文件系统范围跟踪粒度的大小。
在一个方面,描述了在一个或多个跟踪数据结构中跟踪部分召回的文件的哪些范围是脏的。基于一个或多个转储清除准则,可将所述一个或多个跟踪结构从易失性存储器中懒惰地转储清除到非易失性存储器。
在一个方面,描述了优化打开文件,包括使用跟踪哪一个或多个文件范围是脏的以及哪一些是干净的数据。在优化结束时,只有干净范围被截除。
结合附图阅读以下具体实施方式,本发明的其他优点会变得显而易见。
作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:
图1是根据一个示例实施例的表示将经去重复文件的各范围召回成部分经去重复文件和/或访问部分经去重复文件的数据的示例组件的框图。
图2是根据一个示例实施例的可被用来跟踪相对大文件的更细颗粒的召回范围的示例分层数据结构的表示。
图3是根据一个示例实施例的可被用来跟踪相对大文件的更细颗粒的召回范围的示例分层数据结构的另一表示。
图4是根据一个示例实施例的表示延迟转储清除操作的的示例步骤的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480010936.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预测存储服务
- 下一篇:基于情境的无查询搜索