[发明专利]日志文件压缩及解压缩方法、电子设备和可读存储介质有效
| 申请号: | 201711295681.9 | 申请日: | 2017-12-08 |
| 公开(公告)号: | CN107977442B | 公开(公告)日: | 2020-08-07 |
| 发明(设计)人: | 王雪峰 | 申请(专利权)人: | 北京希嘉创智教育科技有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06F16/174;G06F16/172 |
| 代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
| 地址: | 100070 北京市丰台区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 日志 文件 压缩 解压缩 方法 电子设备 可读 存储 介质 | ||
1.一种日志文件压缩方法,包括:
将待压缩的日志文件切分为子文件,所述日志文件的每一行数据记录一个操作,所述子文件包括多个所述行;
将每个子文件分别作为一个压缩任务送入压缩任务池;
并行地执行所述压缩任务池中的多个压缩任务;
在所述压缩任务池中的所有压缩任务均完成后,将不同压缩任务获得的压缩子文件合并成压缩结果文件;
其中,逐行压缩所述压缩任务对应的子文件以获取所述压缩子文件;所述压缩子文件的行数与所述子文件的行数一一对应;
逐行压缩所述压缩任务对应的子文件以获取所述压缩子文件包括:
读取所述子文件的第一行数据,将所述第一行数据中的时间戳字段的位置信息存储在元信息中;
逐行读取所述子文件之后的各行数据,将读取的当前行中的时间戳修改为与前一行数据中的时间戳的偏移量,并根据预定的压缩算法压缩修改后的当前行;
在所述子文件的所有行压缩完成时输出所述压缩子文件并存储。
2.根据权利要求1所述的日志文件压缩方法,其特征在于,所述日志文件根据分布式文件系统的存储形式进行切分;
所述压缩结果文件根据分布式文件系统的存储形式进行存储。
3.根据权利要求2所述的日志文件压缩方法,其特征在于,所述子文件的数量是根据所述待压缩的日志文件的大小和所述分布式文件系统的存储单元的大小计算的。
4.一种日志文件解压缩方法,包括:
将待解压的日志文件的所有子压缩文件作为解压缩任务送入解压缩任务池;
并行地执行所述解压缩任务池中的多个解压缩任务,并根据计算任务统计计算所述子压缩文件的日志数据,所述计算任务包括访问量和用户记录;
在所述解压缩任务池中的所有解压缩任务均完成后,汇总所有子压缩文件的计算任务结果,将获取的总计算任务结果输出;
其中,逐行解压所述解压缩任务对应的子压缩文件以获取解压子文件,统计计算所述解压子文件以获取所述子压缩文件的任务计算结果;所述子压缩文件的行数与所述解压子文件的行数一一对应;
逐行解压缩所述解压缩任务对应的子压缩文件以获取解压子文件,统计计算所述解压子文件以获取所述子压缩文件的任务计算结果包括:
根据预定的解压缩算法解压所述子压缩文件的第一行数据,并根据元信息中的地址信息获取所述第一行数据的时间戳;
根据预定的解压缩算法逐行解压所述子压缩文件之后的各行数据;
根据时间戳偏移量恢复解压的当前行时间戳;
根据计算任务统计计算所述当前行的日志数据;
在所述子压缩文件的所有行解压完成时,存储获得的解压子文件,并汇总计算各行的计算结果以获取所述子压缩文件的计算任务结果。
5.根据权利要求4所述的日志文件解压缩方法,其特征在于,所述待解压日志文件的子压缩文件根据分布式文件系统的存储形式进行存储。
6.一种电子设备,包括:
至少一个处理器;
存储器,用于存储所述处理器可执行的指令;
所述处理器被配置为执行如权利要求1-5中任一项所述的方法。
7.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希嘉创智教育科技有限公司,未经北京希嘉创智教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711295681.9/1.html,转载请声明来源钻瓜专利网。





