[发明专利]一种优化静态词库尺寸的方法及电子设备有效
申请号: | 201610465580.0 | 申请日: | 2016-06-23 |
公开(公告)号: | CN107544965B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 静态 词库 尺寸 方法 电子设备 | ||
本发明公开了一种优化静态词库尺寸的方法及电子设备,该方法包括:对静态词库中存储的每条数据进行排序,获得排序后的顺序作为对应数据的数据编号;获取每条数据在静态词库中存储的实际偏移值;根据每条数据的数据编号,对每条数据的实际偏移值进行分类,每个类别中的最小实际偏移值与最大实际偏移值之差小于设定阈值;获取并存储每个类别的类别标识号,类别标识号用于表征每个类别中对应的数据编号所属的值域区间;将每个类别中的第一个实际偏移值作为每个类别的偏移值进行存储,及获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值。通过上述方案,解决了现有技术中输入法的静态词库尺寸过大的技术问题,减小静态词库的尺寸。
技术领域
本发明涉及软件技术领域,特别涉及一种优化静态词库尺寸的方法及电子设备。
背景技术
随着移动互联网的不断发展,手机、pad等移动电子设备扮演着越来越重要的角色,可供人们浏览网页、聊天、玩游戏等。在使用移动电子设备的过程中,时常需要输入数据如聊天,为此输入法成了移动电子设备的基础工具。
对于输入法特别是手机输入法来说,安装包的尺寸是一个很重要的衡量标准,如果过大占用用户过多存储空间,被下载使用的可能性就大大降低。其中,静态词库在安装包中占很大一部分比重,所谓静态词库,就是内容固定不变、属于基础性词库、词条固定且数量很多、查询频繁。现有技术中的词库为了使查询性能高,设置了哈希区和索引区,这两个区用于存储指向数据区的偏移值,因为一般词库的大小都远超过了65536字节,其对应的实际偏移值所占用的存储空间也将超过65536字节,只能用int类型来表示偏移值。由于数据库中数据条目庞大,int类型占用的存储空间也较大,导致现有技术中的静态词库的尺寸过大,用户的安装成本高,不利于输入法的应用及推广。
可见,现有技术中因偏移值存储占用了较大空间导致输入法的静态词库存在尺寸过大的技术问题。
发明内容
本发明实施例提供一种优化静态词库尺寸的方法及电子设备,用于解决现有技术中因偏移值存储占用了较大空间导致输入法的静态词库存在尺寸过大的技术问题,减小静态词库的尺寸。
本申请实施例提供一种优化静态词库的方法,该方法包括:
对静态词库中存储的每条数据进行排序,获得排序后的顺序作为对应数据的数据编号;
获取所述每条数据在所述静态词库中存储的实际偏移值;
根据每条数据的数据编号,对每条数据的实际偏移值进行分类,其中,每个类别中的最小实际偏移值与最大实际偏移值之差小于设定阈值;
对分类获得的每个类别,获取并存储每个类别的类别标识号,所述类别标识号用于表征每个类别中实际偏移值对应的数据编号所属的值域区间;
将每个类别中的第一个实际偏移值作为每个类别的偏移值进行存储,及获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值。
可选的,所述设定阈值为216,所述相对偏移值用一个存储空间大小为216的数据类型表示。
可选的,所述根据每条数据的数据编号,对每条数据的实际偏移值进行分类,包括:
按每条数据的数据编号顺序,将每条数据的实际偏移值顺序分为J类,J为大于等于2的整数。
可选的,所述获取并存储每个类别中各实际偏移值相对每个类别的偏移值的相对偏移值,包括通过如下公式获得所述相对偏移值:
Si'=Si-Aj
其中,Si'表示数据编号i的数据的相对偏移值,Si为数据编号i的实际偏移值,Aj表示数据编号i的数据的实际偏移值所属分类的偏移值。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610465580.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:屋檐清洁刷
- 下一篇:一种推荐应用程序的方法及电子设备