[发明专利]一种目标词组的确定方法和装置有效
| 申请号: | 201610998430.6 | 申请日: | 2016-11-11 |
| 公开(公告)号: | CN108073293B | 公开(公告)日: | 2022-01-14 |
| 发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 词组 确定 方法 装置 | ||
1.一种目标词组的确定方法,其特征在于,包括:
接收用户输入的字符串;
确定与所述字符串相匹配的一个或多个候选词组;
识别已上屏的文本信息和当前的输入环境;
依据所述已上屏的文本信息和当前的输入环境,分别计算所述一个或多个候选词组的特征分值;
根据所述特征分值,确定目标词组;
其中,所述当前的输入环境包括用户当前正在使用输入法的应用程序的类型和用户当前正在使用输入法的网络环境;
所述依据所述已上屏的文本信息和当前的输入环境,分别计算所述一个或多个候选词组的特征分值,包括:
根据所述已上屏的文本信息,计算所述一个或多个候选词组的文本分值;
所述已上屏的文本信息为在所述字符串前上屏的最后一个目标词或目标词组,所述候选词组包括一个或多个关键词,所述根据所述已上屏的文本信息,计算所述一个或多个候选词组的文本分值的步骤包括:
分别确定所述目标词或目标词组与所述候选词组中的每个关键词的连接关系;
针对所述连接关系,计算所述一个或多个候选词组的文本分值。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述字符串相匹配的一个或多个候选词组的步骤包括:
将所述字符串切分为一个或多个字符子串;
从预设的词库中查找出与所述一个或多个字符子串相匹配的多个候选词;
根据所述多个候选词,生成一个或多个候选词组。
3.根据权利要求2所述的方法,其特征在于,所述一个或多个字符子串具有对应的输入顺序,所述根据所述多个候选词,生成一个或多个候选词组的步骤包括:
按照所述输入顺序,将所述一个或多个字符子串对应的候选词进行组合,生成一个或多个候选词组。
4.根据权利要求1所述的方法,其特征在于,所述依据所述已上屏的文本信息和当前的输入环境,分别计算所述一个或多个候选词组的特征分值,包括:
根据所述当前的输入环境,计算所述一个或多个候选词组的环境分值;
采用所述文本分值和所述环境分值,确定所述一个或多个候选词组的特征分值。
5.根据权利要求4所述的方法,其特征在于,所述连接关系包括二元关系,和/或,远距离关系,所述针对所述连接关系,计算所述一个或多个候选词组的文本分值的步骤包括:
当所述关键词与所述目标词或目标词组具有二元关系时,确定所述关键词的文本分值为预设的第一文本分值;
当所述关键词与所述目标词或目标词组具有远距离关系时,确定所述关键词的文本分值为预设的第二文本分值;
根据所述预设的第一文本分值和预设的第二文本分值,计算每个关键词的文本分值;
根据每个关键词的文本分值,计算所述候选词组的文本分值。
6.根据权利要求4所述的方法,其特征在于,所述候选词组包括一个或多个关键词,所述当前的输入环境具有预置的特征词库,所述根据所述当前的输入环境,计算所述一个或多个候选词组的环境分值的步骤包括:
分别判断所述一个或多个关键词是否位于所述预置的特征词库中;
当所述关键词位于所述预置的特征词库中时,确定所述关键词的环境分值为预设的环境分值;
根据每个关键词的环境分值,计算所述候选词组的环境分值。
7.根据权利要求4-6任一所述的方法,其特征在于,所述文本分值和环境分值分别具有对应的权重,所述采用所述文本分值和所述环境分值,确定所述一个或多个候选词组的特征分值的步骤包括:
对所述文本分值和所述环境分值进行加权,获得所述一个或多个候选词组的特征分值。
8.根据权利要求1所述的方法,其特征在于,所述根据所述特征分值,确定目标词组的步骤包括:
对所述特征分值进行排序;
提取所述特征分值在前N位的候选词组为目标词组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610998430.6/1.html,转载请声明来源钻瓜专利网。





