[发明专利]对查询词提供校正建议的方法、装置、及概率词典构建方法有效
申请号: | 201610196522.2 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291730B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 杨珂 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 提供 校正 建议 方法 装置 概率 词典 构建 | ||
1.一种对查询词提供校正建议的方法,其特征在于,所述方法包括:
获取用户输入的所述查询词;
依照所述查询词对应的拼写字符串,构建所述查询词的音节图;其中,所述音节图由音节节点和音节边组成,所述音节边表示所述查询词对应的拼写字符串按照拼写规则分割成的音节组合,所述音节节点表示所述拼写字符串的分割位置;
将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;
根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;
将经筛选的所述校正建议词显示给用户供选择;
其中,所述将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率,包括:
根据所述拼写字符串按照拼写规则分割成的所述音节组合出现的顺序,确定所述音节图中所述音节边和所述音节节点的顺序;以第一个音节边作为当前音节边,所述当前音节边表示的所述音节组合为当前音节组合;在所述预设概率词典中搜索出符合所述当前音节组合的文字中出现概率最高的预设个文字及各个文字的出现概率;
判断所述当前音节边是否是所述音节图中的最后一个音节边;
如果所述当前音节边不是所述音节图中的最后一个音节边,则将所述当前音节边的下一个音节边作为新的当前音节边;获取所述新的当前音节边的上一个所述音节边表示的所述音节组合所对应的出现概率最高的预设个文字,记为第一文字,以及所述预设个文字各自的出现概率,记为第一概率;从所述预设概率词典中搜索出以所述第一文字为第一个文字、以所述新的当前音节边表示的音节组合所对应的文字为第二个文字的文字组合中出现概率最高的预设个文字组合,以及各所述文字组合的出现概率,记为第二概率;将所述出现概率最高的预设个文字组合中的第二个文字作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字;将相对应的所述第二概率除以所述第一概率计算得到的结果作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字的出现概率;然后返回判断所述当前音节边是否是所述音节图中的最后一个音节边的步骤;
如果所述当前音节边是所述音节图中的最后一个音节边,则执行将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;所述校正建议词的出现概率由构成该校正建议词的每个文字的出现概率的乘积计算得到。
2.如权利要求1所述的方法,其特征在于,所述文字组合由所述网页语料库和所述用户查询词语料库的文本中相邻的两个文字构成。
3.如权利要求1所述的方法,其特征在于,所述预设概率词典中存储的文字的出现概率由以下统计量计算得到:
第一统计量为文字在所述网页语料库中出现的次数;
第二统计量为文字在所述用户查询词语料库中出现的次数;
第三统计量为与文字对应完全相同的字符串的文字在所述网页语料库中出现的次数的总和;
第四统计量为与文字对应完全相同的字符串的文字在所述用户查询词语料库中出现的次数的总和。
4.如权利要求3所述的方法,其特征在于,文字的出现概率由所述第一统计量除以所述第三统计量的结果与所述第二统计量除以所述第四统计量的结果进行加权处理计算得到。
5.如权利要求4所述的方法,其特征在于,所述第一统计量除以所述第三统计量的结果所占的权重小于所述第二统计量除以所述第四统计量的结果所占的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610196522.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据更新方法及系统、半导体设备
- 下一篇:计算业务的处理方法及装置