[发明专利]一种优化静态词库尺寸的方法及电子设备有效

申请号：	201610465580.0	申请日：	2016-06-23
公开（公告）号：	CN107544965B	公开（公告）日：	2021-10-01
发明（设计）人：	费腾	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京华沛德权律师事务所 11302	代理人：	马苗苗
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种优化静态词库尺寸方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种优化静态词库尺寸的方法，其特征在于，包括：

对静态词库中存储的每条数据进行排序，获得排序后的顺序作为对应数据的数据编号；

获取所述每条数据在所述静态词库中存储的实际偏移值；

根据每条数据的数据编号，对每条数据的实际偏移值进行分类，其中，每个类别中的最小实际偏移值与最大实际偏移值之差小于设定阈值；

对分类获得的每个类别，获取并存储每个类别的类别标识号，所述类别标识号用于表征每个类别中实际偏移值对应的数据编号所属的值域区间；

将每个类别中的第一个实际偏移值作为每个类别的偏移值进行存储，及获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值。

2.如权利要求1所述的方法，其特征在于，所述设定阈值为2¹⁶，所述相对偏移值用一个存储空间大小为2¹⁶的数据类型表示。

3.如权利要求1所述的方法，其特征在于，所述根据每条数据的数据编号，对每条数据的实际偏移值进行分类，包括：

按每条数据的数据编号顺序，将每条数据的实际偏移值顺序分为J类，J为大于等于2的整数。

4.如权利要求3所述的方法，其特征在于，所述获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值，包括通过如下公式获得所述相对偏移值：

Si'＝Si-Aj

其中，Si'表示数据编号i的数据的相对偏移值，Si为数据编号i的实际偏移值，Aj表示数据编号i的数据的实际偏移值所属分类的偏移值。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

在读取所述静态词库中的目标数据时，根据所述目标数据的目标数据编号、每个类别的所述值域区间，获得所述目标数据编号所在的值域区间对应的类别标识号及与所述类别标识号对应的目标类别；

根据所述目标数据的目标数据编号，从所述目标类别中读取所述目标数据的相对偏移值；

获得所述目标数据的相对偏移值与所述目标类别的偏移值之和作为所述目标数据的实际偏移值；

从所述目标数据的实际偏移值指向的位置中读取所述目标数据。

6.如权利要求5所述的方法，其特征在于，所述根据所述目标数据的目标数据编号，从所述目标类别中读取所述目标数据的相对偏移值，包括：

以所述目标数据编号所属的值域区间为参考，获得所述目标类别中数据编号为所述目标数据编号的相对偏移值作为所述目标数据的相对偏移值。

7.一种电子设备，其特征在于，包括：

排序单元，用于对静态词库中存储的每条数据进行排序，获得排序后的顺序作为对应数据的数据编号；

获取单元，用于获取所述每条数据在所述静态词库中存储的实际偏移值；

分类单元，用于根据每条数据的数据编号，对每条数据的实际偏移值进行分类，其中，每个类别中的最小实际偏移值与最大实际偏移值之差小于设定阈值；

存储单元，用于对分类获得的每个类别，获取并存储每个类别的类别标识号，所述类别标识号用于表征每个类别中实际偏移值对应的数据编号所属的值域区间；

所述存储单元还用于将每个类别中的第一个实际偏移值作为每个类别的偏移值进行存储，及获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值。

8.如权利要求7所述的电子设备，其特征在于，所述设定阈值为2¹⁶，所述相对偏移值用一个存储空间大小为2¹⁶的数据类型表示。

9.如权利要求7所述的电子设备，其特征在于，所述分类单元用于：

按每条数据的数据编号顺序，将每条数据的实际偏移值顺序分为J类，J为大于等于2的整数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司，未经北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610465580.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载