[发明专利]一种生成压缩字典的方法及装置有效
| 申请号: | 201711251754.4 | 申请日: | 2017-12-01 |
| 公开(公告)号: | CN107994907B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 刘天昊 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | H03M7/30 | 分类号: | H03M7/30 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 生成 压缩 字典 方法 装置 | ||
本发明实施例提供了一种生成压缩字典的方法及装置,生成字典的方法,应用于服务器端,包括:获取已排序数据,已排序数据为客户端基于预设的排列规则,根据未压缩数据中的关键字,对未压缩数据排序后生成的;从已排序数据中提取关键字,组成关键字序列;生成关键字序列与预设的序列号之间的对应关系,将对应关系确定为压缩字典。应用本发明实施例能够实现自动生成压缩字典。
技术领域
本发明涉及数据压缩技术领域,特别是涉及一种生成压缩字典的方法及装置。
背景技术
为了向用户提供更好的服务,互联网公司需要通过采集大量的用户数据来了解用户的使用习惯及偏好,以便为用户提供更好的服务。具体的,可以由用户使用的客户端向服务器端上传相关的用户数据,服务器端通过对接收到的用户数据进行统计分析以获取用户的使用信息。由于用户数据的数据量较大,为了节省流量和带宽资源,可以在客户端使用压缩字典对用户数据进行压缩处理后再上传至服务器端。在实际应用中,用户数据通常以键值(key:value)对的形式存储。此外,压缩字典包括数值value与序列号的对应关系。
客户端和服务器端之间使用压缩字典对用户数据进行压缩和解压的过程为:
客户端根据预设的压缩字典,对待上传数据进行压缩处理。具体的,可以将待上传数据中的数值value,替换为压缩字典中该数值value对应的序列号,生成压缩数据;
服务器端接收客户端发送的压缩数据,根据预设的压缩字典,对压缩数据进行解压处理,具体的,可以将压缩数据中的序列号,替换为压缩字典中该序列号对应的数值value,生成解压后的数据。
由于压缩字典是预先设置的,为了保证压缩效果,需要不断更新压缩字典,这样,会出现由于压缩字典更新不及时导致压缩效率低下的问题,且频繁更新压缩字典费时费力。
发明内容
本发明实施例的目的在于提供一种生成压缩字典的方法及装置,以实现自动生成压缩字典。具体技术方案如下:
本发明实施例提供了一种生成压缩字典的方法,应用于服务器端,方法包括:
获取已排序数据,已排序数据为客户端基于预设的排列规则,根据未压缩数据中的关键字,对未压缩数据排序后生成的;
从已排序数据中提取关键字,组成关键字序列;
生成压缩字典,压缩字典包括关键字序列与预设的序列号之间的对应关系。
可选的,在从已排序数据中提取关键字,组成关键字序列的步骤之前,方法还包括:
判断已排序数据中的关键字的个数是否超过预设的个数阈值;
若已排序数据中的关键字的个数超过预设的个数阈值,则执行生成压缩字典的步骤。
可选的,在从已排序数据中提取关键字,组成关键字序列的步骤之后,方法还包括:
统计已生成的关键字序列的数量;
根据数量,计算关键字序列的权重值;
判断权重值是否符合预设条件;
若权重值符合预设条件,则执行生成压缩字典的步骤。
可选的,统计已生成的关键字序列的数量的步骤,包括:
按照预设的统计周期,统计已生成的关键字序列的数量。
可选的,判断权重值是否符合预设条件的步骤,包括:
判断权重值是否超过预设的权重阈值;
当所述权重值未超过预设的权重阈值时,判断权重值是否为所有的关键字序列的权重值中的最大值;
权重值符合所述预设条件的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711251754.4/2.html,转载请声明来源钻瓜专利网。





