[发明专利]数据处理的方法和存储介质在审
| 申请号: | 201810410873.8 | 申请日: | 2018-05-02 |
| 公开(公告)号: | CN110442489A | 公开(公告)日: | 2019-11-12 |
| 发明(设计)人: | 朱成生;俞飞江 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F17/27 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 存储介质 数据文件 数据处理 文本块 压缩 热度 存储空间 压缩技术 替换 存储 申请 | ||
1.一种数据处理的方法,其特征在于,包括:
从待压缩的数据文件中获取高热度文本块;
将所述高热度文本块替换所述待压缩的数据文件进行存储。
2.根据权利要求1所述的数据处理的方法,其特征在于,所述高热度文本块为热度大于预设指标热度的文本块,其中,预设指标热度为同组指标的平均引用次数。
3.根据权利要求1所述的数据处理的方法,其特征在于,所述从待压缩的数据文件中获取高热度文本块包括:
对所述待压缩的数据文件进行数据分析,并通过预设算法计算所述待压缩的数据文件中预设热度排名的文本块;
将所述预设热度排名的文本块确定为所述高热度文本块。
4.根据权利要求3所述的数据处理的方法,其特征在于,所述通过预设算法计算所述待压缩的数据文件中预设热度排名的文本块包括:
在所述待压缩的数据文件为日志数据表的情况下,从所述日志数据表中根据预设分词条件进行分词,得到分词后的日志;
对所述分词后的日志进行向量化,将日志转成高维度向量空间;
通过预设聚类算法,对至少一个所述高维度向量空间进行聚类,得到日志相似类集合;
根据所述日志相似类集合生成字典库,并根据所述字典库与所述日志相似类集合生成数字日志;
通过预设跨度计算不同跨度的卷积块,并根据所述预设跨度与在所述数字日志中出现次数的乘积,确定预设排名的高压缩率卷积块;
根据所述字典库格式化编码,还原所述待压缩的数据文件,得到所述高热度文本块。
5.根据权利要求4所述的数据处理的方法,其特征在于,所述通过预设聚类算法,对至少一个所述高维度向量空间进行聚类,得到日志相似类集合包括:
在所述预设聚类算法为K均值聚类算法的情况下,通过所述K均值聚类算法,对至少一个所述高维度向量空间进行聚类,得到日志相似类集合。
6.根据权利要求4所述的数据处理的方法,其特征在于,所述根据所述日志相似类集合生成字典库,并根据所述字典库与所述日志相似类集合生成数字日志包括:
对所述日志相似类集合中的各分词进行词频统计,得到所述字典库;
根据所述字典库与所述日志相似类集合进行映射,得到所述数字日志,其中,所述数字日志用于卷积求和,所述卷积求和用于确定相似文本块的跨度。
7.根据权利要求4或6所述的数据处理的方法,其特征在于,通过预设跨度计算不同跨度的卷积块,并根据所述预设跨度与在所述数字日志中出现次数的乘积,确定预设排名的高压缩率卷积块包括:
依据预设跨度,计算不同跨度卷积求和;
依据所述不同跨度和所述预设跨度对应卷积和在所述数字日志中出现次数乘积,得到预设排名的高压缩率跨度;
依据所述预设排名的高压缩率跨度计算不同跨度的卷积块,并根据所述预设排名的高压缩率跨度与在所述数字日志中出现次数的乘积,确定所述预设排名的高压缩率卷积块。
8.根据权利要求1所述的数据处理的方法,其特征在于,所述将所述高热度文本块替换所述待压缩的数据文件进行存储包括:
依据预设模型对所述高热度文本块进行编码,得到编码后的高热度文本块;
将所述编码后的高热度文本块替换所述待压缩的数据文件进行存储。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行:从待压缩的数据文件中获取高热度文本块;将所述高热度文本块替换所述待压缩的数据文件进行存储。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行:从待压缩的数据文件中获取高热度文本块;将所述高热度文本块替换所述待压缩的数据文件进行存储。
11.一种数据处理的方法,其特征在于,包括:
获取目标数据对象,其中,所述目标数据对象存储在目标数据地址;
从所述目标数据对象中,获取热度大于预设阈值的文本块,其中,所述预设阈值包括引用次数或引用频率;
将所述文本块存储在所述目标数据地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810410873.8/1.html,转载请声明来源钻瓜专利网。





