[发明专利]一种数据压缩方法、装置、设备及计算机存储介质在审
申请号: | 202010890849.6 | 申请日: | 2020-08-29 |
公开(公告)号: | CN114124102A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李春光;王道辉;朱挺炜;宋驰 | 申请(专利权)人: | 华为云计算技术有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 550025 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据压缩 方法 装置 设备 计算机 存储 介质 | ||
本申请公开了一种数据压缩方法,该方法包括:选择基准数据中的部分数据,并对部分数据进行切分得到第一字符串集合;从待压缩数据获取至少一个待压缩字符串,将至少一个待压缩字符的指纹在第一字符串集合对应的指纹集合中进行比对;在未获取到匹配项的情况下,将部分数据以预设步长进行扩大,并对扩大后的部分数据进行切分得到第二字符串集合,将至少一个待压缩字符串的指纹在第二字符串集合对应的指纹集合中进行比对,在获取到匹配项的情况下,记录匹配项对应的字符串在基准数据中的偏移量以及长度到差量数据中。利用上述方法对待压缩数据进行压缩时,可以有效提高压缩效率。
技术领域
本申请涉及计算机技术,尤其涉及一种数据压缩方法、装置、设备及计算机存储介质。
背景技术
差量压缩(delta compression)是一种通过消除冗余数据来实现数据压缩的技术。差量压缩适用于相似数据的压缩,比如说,数据块A与数据块B相似,通过差量计算可以得到数据块A相对于数据块B的差量数据ΔB,A。由于差量数据ΔB,A中不包含数据块A与数据块B之间重复的数据,因此差量数据ΔB,A的数据量远小于数据块A的数据量,那么存储或传输差量数据ΔB,A的开销远小于存储或传输数据块A的开销。
但是,本领域的技术人员在长期研究下发现利用差量压缩技术对数据块进行压缩时仍存在压缩效率低下的问题。
发明内容
本申请实施例公开了一种数据压缩方法、装置、设备及计算机存储介质,能够有效提高数据压缩的效率。
第一方面,本申请提供了一种数据压缩方法,该方法包括:
选择基准数据中的部分数据,对部分数据进行切分得到第一字符串集合;
从待压缩数据中获取至少一个待压缩字符串,将至少一个待压缩字符串在第一字符串集合中进行比对;
在未获取到匹配字符串的情况下,将部分数据在基准数据中以预设步长进行扩大,并对扩大后的部分数据进行切分得到第二字符串集合,将至少一个待压缩字符串在第二字符串集合中进行比对,在获取到匹配字符串的情况下,记录匹配字符串在基准数据中的偏移量以及长度到差量数据中。
实施上述方案,设备通过对基准数据中的部分数据进行切分得到第一字符串集合,然后利用字符串的指纹将从待压缩数据中切分出的至少一个待压缩字符串分别在第一字符串集合中进行比对。当至少一个待压缩字符与第一字符串集合中的所有的字符串都不匹配时,设备通过扩大部分数据以得到第二字符串集合,然后利用字符串的指纹将至少一个待压缩字符串分别在第二字符串集合中进行比对。当至少一个待压缩字符中的任一个字符串与第一字符串集合中的任一个的字符串匹配时,记录该匹配字符串在基准数据中的偏移量以及长度到差量数据中。以此类推,直至完成对待压缩数据的压缩。可以看出,由于上述方法中设备选择对基准数据的部分数据进行切分,当未获取到匹配字符串时,再对部分数据进行扩大、切分,而不是直接将基准数据全部进行切分,因此上述方法减少了计算字符串指纹、通过比对字符串的指纹确定字符串是否匹配等操作,那么利用上述方法大大缩减了压缩待压缩数据的时间开销,提升了压缩待压缩数据的速度。
在一些可能的设计中,上述方法还包括:将至少一个待压缩字符串在第二字符串集合中进行比对,在未获取到匹配字符串的情况下,记录未匹配字符串以及未匹配字符串的长度到差量数据中。具体地,在未获取到匹配字符串的情况下,设备可能继续切分待压缩数据得到至少一个新的待压缩字符串,并对从待压缩数据中新切分出的待压缩字符串进行压缩,从而获得匹配字符串,那么当设备记录匹配字符串在基准数据中的偏移量以及长度到差量数据之前,记录上述未匹配字符串以及未匹配字符串的长度到差量数据中。
可以看出,当未匹配字符串的数据量过多时,利用上述方式可以减少向差量数据中写入未匹配字符串以及未匹配字符串的长度的次数,也减少了在解压缩时从差量数据恢复未匹配字符串的次数,从而提高了数据压缩和解压缩的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为云计算技术有限公司,未经华为云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010890849.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:密钥使用方法及相关产品
- 下一篇:一种时空数据的查询方法及相关装置