[发明专利]一种用户词库优化方法、装置及电子设备有效
申请号: | 201610853368.1 | 申请日: | 2016-09-26 |
公开(公告)号: | CN107870932B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F3/023 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 词库 优化 方法 装置 电子设备 | ||
本发明公开了一种用户词库优化方法、装置及电子设备,该用户词库优化方法包括:获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化。在该技术方案中,通过获得输入词的输入代价,在进行用户词库优化时,根据输入词的输入代价进行优化,避免将输入代价较大的词从用户词库中删除,以解决现有技术中用户词库优化时降低输入效率的技术问题,提高用户的输入效率。
技术领域
本发明涉及数据库技术领域,特别涉及一种用户词库优化方法、装置及电子设备。
背景技术
用户词库对于输入法来说至关重要,主要用于记录用户上屏的词。在输入法展现候选词时,优先展现用户词库里有的词。由于用户词库存储在客户端,有一定的尺寸限制,比如最多存20w条词或是最大容量为20M。所以如果用户词库达到了上限,就需要进行瘦身优化,主要是删除掉那些不好的词以腾出空间继续进行学习。
现有技术中,用户词库的瘦身优化大多数采取的瘦身策略是:优先删除上屏时间早、上屏时间次数少或者两者综合分值小的词。按照现有的瘦身策略进行优化时,会删除一些虽然上屏次数少,但是用户上屏代价较大的词(例如通过多次手动选词后上屏),但对于这类词,用户一旦输入必然上屏,这就导致用户需要再次输入该此时,需要再次付出较大的代价,会降低输入效率。
可见,现有技术中用户词库优化时不考虑输入词的上屏代价,存在降低输入效率的技术问题。
发明内容
本发明实施例提供一种用户词库优化方法、装置及电子设备,用于解决现有技术中用户词库优化时存在降低输入效率的技术问题。
本申请实施例一种用户词库优化方法,包括以下步骤:
获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化。
可选的,所述根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数和/或忽略频率;
根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
可选的,在所述获得输入词的输入代价之前,所述方法还包括:
根据如下公式获得所述输入词的上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
可选的,所述获得输入词的输入代价,包括:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
可选的,所述根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610853368.1/2.html,转载请声明来源钻瓜专利网。