[发明专利]对查询词提供校正建议的方法、装置、及概率词典构建方法有效
申请号: | 201610196522.2 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291730B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 杨珂 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 提供 校正 建议 方法 装置 概率 词典 构建 | ||
本发明公开了对查询词提供校正建议的方法和装置,及构建概率词典的方法,属于计算机网络搜索技术领域。对查询词提供校正建议的方法包括:获取用户输入的查询词;将查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各校正建议词的出现概率;根据每个校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的校正建议词显示给用户供选择。对查询词提供校正建议的装置包括:第一获取模块、第二获取模块、选取模块、显示模块。构建概率词典的方法包括:收集语料库,统计、计算并存储文字及文字组合在语料库中的出现概率。本发明利用网页语料库和用户查询词语料库构建的概率词典,提高了校正建议的准确率和召回率。
技术领域
本发明涉及计算机网络搜索技术领域,具体涉及一种对查询词提供校正建议的方法和装置、以及一种构建概率词典的方法。
背景技术
目前搜索引擎已经成为人们查询信息获取知识的重要来源,使用搜索引擎的主要方式为在搜索框输入查询词进行搜索,而查询词的质量好坏直接影响搜索结果。在搜索框输入查询词时,主要是通过键盘进行输入,在通过键盘输入查询词时,往往会因为用户的指法错误或用户的粗心大意而造成输入错误。例如,在使用拼音输入法输入汉字时,当拼写字符串对应多个可选字词时,用户可能会因选字选词错误而输入了错误的查询词;再例如,在用户输入英文查询词时,可能会因拼写输入错误而输入了错误的查询词。为了提升用户体验,提高用户查询质量,搜索引擎为用户提供了查询词的校正功能。搜索引擎的查询词校正是指:用户在搜索引擎的搜索框输入查询词,搜索引擎的后台校正系统通过相应算法流程,发现用户输入的查询词可能存在错误,搜索引擎的前端在获取查询词的同时,给出若干个校正建议词。
目前常用的一种查询校正的方法是基于校正词典实现的,基于校正词典实现查询校正的方法的过程如下:搜集用户的查询日志,提取查询日志中记载的查询-校正点击对(查询-校正点击对是指:用户在搜索框输入查询词时点击输入了查询词对应的校正建议词,则查询词与对应的校正建议词称为查询-校正点击对);统计同一查询-校正点击对的数量,如果同一查询-校正点击对的数量超过预设数量阈值,则确定将超过预设数量阈值的查询-校正点击对存储在校正词典中,其中,校正词典以查询词为键,以校正建议词为值;获取用户当前在搜索框输入的查询词;查看获取的查询词是否在校正词典中;如果在校正词典中,则将校正词典中与获取的查询词对应的校正建议词展示给用户。
现有基于校正词典实现查询校正的方法,存在以下缺陷:
1)该方法将用户的查询日志作为训练语料得到校正词典,但用户的查询日志这种训练语料数量有限,训练出来的校正词典中包含的校正建议词比较稀疏,存在大量需要校正的错误输入无法找到匹配的查询-校正点击对的情况,因此,这种方法的召回率比较低。
2)该方法所采用的查询-校正点击对是系统依据用户选择而建立的,缺乏足够的数据支撑与验证,因此,这种方法的准确率也比较低。
发明内容
为了解决现有技术的问题,本发明提供了一种对查询词提供校正建议的方法和装置,并提供了一种构建概率词典的方法,旨在提高对查询词进行校正的准确率、召回率。
为了解决上述问题,本发明公开了一种对查询词提供校正建议的方法,所述方法包括:
获取用户输入的所述查询词;
将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;
根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;
将经筛选的所述校正建议词显示给用户供选择。
为了解决本发明的技术问题,本发明还公开了一种构建概率词典的方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610196522.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据更新方法及系统、半导体设备
- 下一篇:计算业务的处理方法及装置