[发明专利]一种生成压缩字典的方法及装置有效

申请号：	201711251754.4	申请日：	2017-12-01
公开（公告）号：	CN107994907B	公开（公告）日：	2021-05-28
发明（设计）人：	刘天昊	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	H03M7/30	分类号：	H03M7/30
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	马敬;项京
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种生成压缩字典方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种生成压缩字典的方法及装置，生成字典的方法，应用于服务器端，包括：获取已排序数据，已排序数据为客户端基于预设的排列规则，根据未压缩数据中的关键字，对未压缩数据排序后生成的；从已排序数据中提取关键字，组成关键字序列；生成关键字序列与预设的序列号之间的对应关系，将对应关系确定为压缩字典。应用本发明实施例能够实现自动生成压缩字典。

技术领域

本发明涉及数据压缩技术领域，特别是涉及一种生成压缩字典的方法及装置。

背景技术

为了向用户提供更好的服务，互联网公司需要通过采集大量的用户数据来了解用户的使用习惯及偏好，以便为用户提供更好的服务。具体的，可以由用户使用的客户端向服务器端上传相关的用户数据，服务器端通过对接收到的用户数据进行统计分析以获取用户的使用信息。由于用户数据的数据量较大，为了节省流量和带宽资源，可以在客户端使用压缩字典对用户数据进行压缩处理后再上传至服务器端。在实际应用中，用户数据通常以键值(key：value)对的形式存储。此外，压缩字典包括数值value与序列号的对应关系。

客户端和服务器端之间使用压缩字典对用户数据进行压缩和解压的过程为：

客户端根据预设的压缩字典，对待上传数据进行压缩处理。具体的，可以将待上传数据中的数值value，替换为压缩字典中该数值value对应的序列号，生成压缩数据；

服务器端接收客户端发送的压缩数据，根据预设的压缩字典，对压缩数据进行解压处理，具体的，可以将压缩数据中的序列号，替换为压缩字典中该序列号对应的数值value，生成解压后的数据。

由于压缩字典是预先设置的，为了保证压缩效果，需要不断更新压缩字典，这样，会出现由于压缩字典更新不及时导致压缩效率低下的问题，且频繁更新压缩字典费时费力。

发明内容

本发明实施例的目的在于提供一种生成压缩字典的方法及装置，以实现自动生成压缩字典。具体技术方案如下：

本发明实施例提供了一种生成压缩字典的方法，应用于服务器端，方法包括：

获取已排序数据，已排序数据为客户端基于预设的排列规则，根据未压缩数据中的关键字，对未压缩数据排序后生成的；

从已排序数据中提取关键字，组成关键字序列；

生成压缩字典，压缩字典包括关键字序列与预设的序列号之间的对应关系。

可选的，在从已排序数据中提取关键字，组成关键字序列的步骤之前，方法还包括：

判断已排序数据中的关键字的个数是否超过预设的个数阈值；