[发明专利]数据压缩方法、装置、电子设备及计算机可读存储介质有效
| 申请号: | 201911229310.X | 申请日: | 2019-12-04 |
| 公开(公告)号: | CN112905551B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 汪翔 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/172;G06F16/22 |
| 代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 刘真 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据压缩 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种数据压缩方法,其特征在于,包括:
响应于接收到数据压缩指令,获取待压缩数据文件,并对所述待压缩数据文件进行均匀采样,得到采样数据文件;
根据所述采样数据文件训练得到数据压缩字典;
利用所述数据压缩字典对于所述待压缩数据文件进行压缩,得到压缩数据文件。
2.根据权利要求1所述的方法,其特征在于,所述待压缩数据文件为树形数据存储结构,其中,所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。
3.根据权利要求2所述的方法,其特征在于,所述响应于接收到数据压缩指令,获取待压缩数据文件,并对所述待压缩数据文件进行均匀采样,得到采样数据文件,包括:
响应于接收到数据压缩指令,获取待压缩数据文件;
从所述待压缩数据文件的根存储级开始进行分级均匀采样,直至到达所述数据索引部分的末级存储级,得到采样索引数据;
根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据,得到采样数据文件。
4.根据权利要求3所述的方法,其特征在于,所述从所述待压缩数据文件的根存储级开始进行分级均匀采样,直至到达所述数据索引部分的末级存储级,得到采样索引数据,被实施为:
从所述待压缩数据文件的根存储级开始,确定当前存储级数据节点的采样目标总数量x,以及所述当前存储级中待采样的数据节点数量t;
若所述采样目标总数量x小于所述待采样数据节点数量t,从t个待采样数据节点中随机采样r个索引数据,得到当前存储级数据节点的采样索引数据;
若所述采样目标总数量x大于等于所述待采样数据节点数量t,将所述采样目标总数量x除以所述待采样数据节点数量t,得到商b和余数r,从t个待采样数据节点中各采样b个索引数据,从t个待采样数据节点中随机采样r个索引数据,得到当前存储级的采样索引数据;
跳至下一存储级进行均匀采样,直至到达所述数据索引部分的末级存储级,将得到的所述数据索引部分末级存储级采样索引数据确定为所述采样索引数据。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述采样数据文件训练得到数据压缩字典,包括:
提取所述采样数据文件的特征数据;
根据所述特征数据训练得到所述数据压缩字典。
6.根据权利要求1-4任一所述的方法,其特征在于,还包括:
将所述压缩数据文件和数据压缩字典组合起来得到输出数据,并输出所述输出数据。
7.一种数据压缩装置,其特征在于,包括:
采样模块,被配置为响应于接收到数据压缩指令,获取待压缩数据文件,并对所述待压缩数据文件进行均匀采样,得到采样数据文件;
训练模块,被配置为根据所述采样数据文件训练得到数据压缩字典;
压缩模块,被配置为利用所述数据压缩字典对于所述待压缩数据文件进行压缩,得到压缩数据文件。
8.根据权利要求7所述的装置,其特征在于,所述待压缩数据文件为树形数据存储结构,其中,所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。
9.根据权利要求8所述的装置,其特征在于,所述采样模块包括:
获取子模块,被配置为响应于接收到数据压缩指令,获取待压缩数据文件;
采样子模块,被配置为从所述待压缩数据文件的根存储级开始进行分级均匀采样,直至到达所述数据索引部分的末级存储级,得到采样索引数据;
确定子模块,被配置为根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据,得到采样数据文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911229310.X/1.html,转载请声明来源钻瓜专利网。





