[发明专利]一种用户词库优化方法、装置及电子设备有效
申请号: | 201610853368.1 | 申请日: | 2016-09-26 |
公开(公告)号: | CN107870932B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F3/023 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 词库 优化 方法 装置 电子设备 | ||
1.一种用户词库优化方法,其特征在于,包括:
获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化;
根据如下公式获得所述输入词的上屏代价:
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
2.如权利要求1所述的方法,其特征在于,所述根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数和/或忽略频率;
根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
3.如权利要求1所述的方法,其特征在于,所述获得输入词的输入代价,包括:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc= b1*C +b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
4.如权利要求1或3所述的方法,其特征在于,所述根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据下述公式获得所述输入词的综合分值Co:
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,c1、c2、c3表示常量,c1+c2+c3=1.0;
删除所述综合分值最低的n个输入词。
5.如权利要求2所述的方法,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述综合分值最低的n个输入词。
6.如权利要求5所述的方法,其特征在于,所述根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2 =1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
7.如权利要求2所述的方法,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述综合分值最低的n个输入词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610853368.1/1.html,转载请声明来源钻瓜专利网。