[发明专利]电子文档增量存储处理方法有效
申请号: | 200910078365.5 | 申请日: | 2009-02-26 |
公开(公告)号: | CN101482839A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 蒋建平;杨耀敏 | 申请(专利权)人: | 北京世纪互联宽带数据中心有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 颜 镝 |
地址: | 100016北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 文档 增量 存储 处理 方法 | ||
技术领域
本发明涉及电子文档处理领域,尤其涉及一种电子文档增量存储处理方法。
背景技术
在数据存储、归档、备份和存储等领域,对于编辑前后发生变化过程中的电子文档,如果需要保留多个版本,以供恢复或作为记录,现有的一般处理方式是将编辑后的电子文档作为独立的文档进行压缩处理或者采用复杂且昂贵的快照技术,以此达到减少存储资源,或者在网络应用环境下减少网络传输流量等目的。
以备份领域为例,备份内容通常在首次备份后,大部分都不会再次更新,仅有少部分的文件(例如用户正在编辑的文档、会议讨论记录等)需要经常进行更新。对于这类普通的用户文件,不太可能采用快照技术,一般只会把更新过的文档重新进行完全备份,如果采用这样的处理方式,则每次编辑后的文档都会被存储为独立文件,也就是说采用完全拷贝编辑后文档的方式,即便采用压缩的方法,仍然需要占用大量的存储资源,从而限制了实现备份处理的服务器的性能和效率。
发明内容
本发明的目的是提出一种电子文档增量存储处理方法,能够消除文档在多次编辑过程中独立保存的文件的冗余,降低对存储资源或网络带宽资源等的需求。
为实现上述目的,本发明提供了一种电子文档编辑后生成增量文档的方法,包括以下步骤:
从参考文档中将预设容量V的数据读入内存,并以预设长度L划分读入的数据,所述参考文档为每次编辑前的文档;
如果参考文档的容量低于预设容量V,则读取所述参考文档的数据直到结尾;
计算划分出的每个参考数据块对应的索引值,并将所述索引值与对应的参考数据块进行关联;
从编辑后文档中依次将预设长度L的编辑后数据块读入内存,并计算对应的索引值,所述编辑后文档为每次编辑后的文档;
将每次读取的参考数据块对应的索引值与读取的各个编辑后数据块对应的索引值进行比较,如果匹配则将所述参考文档匹配的位置以及匹配标记写入增量文档,否则将所述编辑后文档中不匹配段、不匹配长度以及不匹配标记写入该增量文档,所述增量文档为根据参考文档对编辑后文档增量分析后生成的新文档;
在读取的参考数据块对应的索引值与读取的各个编辑后数据块对应的索引值匹配时,清除内存中所述参考文档匹配的位置及该位置之前的数据,并追加所述参考文档中未读入的数据,并满足预设容量V,如果所述参考文档中未读入的数据在追加后容量仍低于预设容量V,则读取所述参考文档的数据直到结尾;
在将所述编辑后文档中不匹配段、不匹配长度以及不匹配标记写入该增量文档时,如果不匹配长度大于预设不匹配长度Lp时,则按照所述预设不匹配长度Lp分为多个不匹配段,并写入该增量文档。
进一步的,在计算从参考文档中划分出的每个参考数据块对应的索引值之后,还包括对所述每个参考数据块对应的索引值进行符合预设数据结构的管理,以便进行索引值的比较。
进一步的,所述对所述每个参考数据块对应的索引值进行符合预设数据结构的管理的操作具体为:采用搜索树对所述每个参考数据块对应的索引值进行管理。
进一步的,所述搜索树还管理着具有相同索引值的每个数据块,在将每次从所述编辑后文档中读取的数据块对应的索引值与从所述参考文档中读取的各个数据块对应的索引值进行比较之后,如果索引值相同,则将每次从所述编辑后文档中读取的数据块与所述具有该相同索引值的每个数据块进行逐一比较,判断内容是否完全匹配。
进一步的,如果参考文档的容量远低于预设容量V,则退出生成增量文档的操作。
进一步的,如果参考文档的容量远低于编辑后文档的容量,则退出生成增量文档的操作。
基于上述技术方案,本发明通过对编辑前后的两个文档进行比较建立映射关系,再根据记录的映射关系生成增量文档,在数据存储、归档、备份等方面只需要处理增量文档来替代处理编辑后文档,以此减少存储或网络传输的负担。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明电子文档编辑后生成增量文档的方法的一实施例的流程示意图。
图2为本发明电子文档编辑后生成增量文档的方法的另一实施例的流程示意图。
图3为本发明参考文档和编辑后文档内容匹配情况的简化示意图。
图4为本发明根据增量文档恢复编辑后文档的方法的一实施例的流程示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪互联宽带数据中心有限公司,未经北京世纪互联宽带数据中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910078365.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于权重的链接多属性的实体识别方法
- 下一篇:基本输入输出系统的控制方法