[发明专利]一种纠错文本的确定方法以及相关设备在审
| 申请号: | 201811452391.5 | 申请日: | 2018-11-30 |
| 公开(公告)号: | CN109376362A | 公开(公告)日: | 2019-02-22 |
| 发明(设计)人: | 王璐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/953 |
| 代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 徐松 |
| 地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词 纠错词 集合 纠错文本 目标搜索 文本 纠错概率 预设规则 语料库 纠错 预设 搜索 | ||
1.一种纠错文本的确定方法,其特征在于,包括:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
2.根据权利要求1所述的方法,其特征在于,所述按照预设规则从所述分词集合中的每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本包括:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
3.根据权利要求1或2所述的方法,其特征在于,所述计算每个初始纠错文本的纠错概率包括:
通过如下公式计算所述每个初始文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,所述Q为目标搜索文本,所述C为所述每个初始文本中的任意一个,N为所述目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为所述Q中的任意一个分词,所述cj为所述qj对应的目标纠错词中的任意一个目标纠错词。
4.根据权利要求1或2所述的方法,其特征在于,所述计算所述分词集合中每个分词对应的纠错词的纠错概率包括:
通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率:
其中,qj为所述分词集合中的任意一个分词,N(qj)为qj在所述语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为所述语料库中qj更正为cj的次数。
5.根据权利要求1或2所述的方法,其特征在于,所述从语料库中确定出所述分词集合中每个分词对应的纠错词包括:
将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。
6.根据权利要求5所述的方法,其特征在于,所述预设条件为:
或,
其中,q为所述分词集合中的任意一个分词,c为所述语料库中与所述q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,所述py_c为所述c的拼音,py_q为所述q的拼音,len(py_c)为所述py_c的长度,len(py_c)为所述py_q的长度,edit(c,q)为所述c与所述q的编辑距离,α为第一预设阈值,β为第二预设阈值。
7.一种纠错文本的确定装置,其特征在于,包括:
获取单元,用于获取用户输入的目标搜索文本;
分词单元,用于对所述目标搜索文本进行分词得到分词集合;
第一确定单元,用于从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算单元,用于计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
第二确定单元,用于将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
第三确定单元,用于按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811452391.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种意图识别方法及装置
- 下一篇:一种基于耳机的实时语音翻译方法及装置





