[发明专利]协同压缩无效

专利信息
申请号: 200880114543.9 申请日: 2008-10-30
公开(公告)号: CN101842785A 公开(公告)日: 2010-09-22
发明(设计)人: K·维斯瓦纳杉;R·斯瓦弥纳杉;M·乌伊萨尔 申请(专利权)人: 惠普发展公司;有限责任合伙企业
主分类号: G06F17/21 分类号: G06F17/21;H04N1/41;G06T3/00;G06F9/44
代理公司: 上海专利商标事务所有限公司 31100 代理人: 李玲;袁逸
地址: 美国得*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 协同 压缩
【说明书】:

发明领域

本发明涉及用于压缩文件的系统、方法和技术,并适用于例如压缩多个相似文件的问题。

背景

考虑到无损地压缩相似文件集的问题。这种问题一般由于海量数据聚集在文件存档、图像库、基于盘的备份工具以及照片集中所引起。多数传统压缩技术将每个文件作为独立实体处理,并利用文件中的冗余来减少存储文件所需的空间。然而,这种方法在未使用的文件之间留下了冗余。

通过对将一个文件转换成另一文件的修改进行编码而相对于另一文件压缩一个文件的问题已在数据压缩文献中受到大量的关注。这个问题也被称为“差分压缩”。然而,在现有技术中尚未提出使用这种技术并将其延伸至压缩大文件集,并且这种延伸是不平凡的。可能由于这些困难,用于压缩多个相似文件的传统技术已采用其它方法。

例如,一种这样的方法是基于字符串匹配的。落在这个范畴内的多数方案(例如M.Factor和D.Sheinwald的“存在共享数据时的压缩(Compression inthe presence of shared data)”,信息科学135:29--41,2001)可视为将全部要压缩的文件串联成一个巨型字符串,并使用LZ 77压缩法压缩该字符串的方案变例。如果缓存大小是固定的,则通过这些技术获得的压缩量一般很低;另一方面,如果缓存大小不固定,则这种技术一般变得计算很复杂,并引发涉及存储器溢出的问题。

通常称为“组块(chunking)”的又一方法将文件解析成长度可变的短语,并通过存储每个短语的单实例以及用于查找该短语的散列(码字)进行压缩(例如K.Eshghi、M.Lillibridge、L. Wilcock、G.Belrose和R.Hawkes的“巨量存储:提供有效增量上传和利用渲染服务的描述(Jumbo Store:Providingefficient incremental upload and versioning for a utility rendering service)文件和存储技术第五届USENIX会议议程(FAST′07),pp.123-138,San Jose,加利福尼亚,2007年2月))。这种方法一般比字符串匹配更快。然而,如果频繁地观察到新组块,则需要频繁的盘存取。此外,即使是文件相似性的简单模型,通过这类方法获得的压缩比也可能不是最理想的。

发明概述

本发明通过尤其基于文件集之间数据元的值的统计将文件间的公共数据分割成经标识的仓(bin)集,并基于数据元经标识的仓压缩所接受文件来解决这个问题。

因此,本发明的一个方面针对协同压缩,其中获得一文件集,其单独一个文件包括一个有序数据元集(例如位位置),而单独一个数据元在不同文件中具有不同的值,但具有文件之间共同的一个有序数据元集。基于文件集之间的数据元值的统计将数据元分割成经标识的多个仓集,并基于数据元的仓压缩所接受的文件。

借助前面的配置,它经常可有效地压缩相似文件的整个集。在某些代表性实施例中,仓用于构造源文件估计,源文件估计则用来有区别地压缩各个文件。其它实施例基于仓分割产生数据值流,并随后单独地压缩这些流而无需源文件估计的介入。

在另一方面,本发明针对协同压缩,其中获得一文件集,其单独一个文件包括有序数据元集,而单独一个数据元在不同文件中具有不同的值,但具有文件之间共同的一个有序数据元集。基于文件集之间的数据元值的统计来构造源文件估计,并相对于源文件估计来压缩所接受的文件。

意图是使前面的概述仅提供对本发明某些方面的简述。可通过参见权利要求书以及结合附图对较佳实施例的下列详细说明来获得本发明更完整的理解。

附图简述

在下面的公开中,参照附图对本发明进行说明。然而应当理解,附图仅描绘了本发明某些代表性和/或示例性实施例和特征,并不旨在以任何方式限制本发明的范围。下面是对每张附图的详细说明。

图1是示出已从单个源文件获得的多个相似文件的理念的方框图。

图2是示出根据本发明某些较佳实施例的文件压缩的一般方法的流程图。

图3示出包括数据元共同集的文件集。

图4是示出使用源文件估计的压缩方法的总览的流程图。

图5是示出基于源文件估计对文件进行压缩和解压缩的系统的方框图。

图6是示出构造源文件估计的方法的流程图。

图7示出两位字符串上下文的序列的De Bruijn图表。

图8是示出压缩文件而不构造源文件估计的第一方法的流程图。

图9示出将源文件分割成数据流以供单独压缩。

图10是示出压缩文件而不构造源文件估计的第二方法的流程图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200880114543.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top