[发明专利]一种纠错文本的确定方法以及相关设备在审

申请号：	201811452391.5	申请日：	2018-11-30
公开（公告）号：	CN109376362A	公开（公告）日：	2019-02-22
发明（设计）人：	王璐	申请（专利权）人：	武汉斗鱼网络科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/953
代理公司：	北京众达德权知识产权代理有限公司 11570	代理人：	徐松
地址：	430000 湖北省武汉市东湖开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词纠错词集合纠错文本目标搜索文本纠错概率预设规则语料库纠错预设搜索
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种纠错文本的确定方法，其特征在于，包括：

获取用户输入的目标搜索文本；

对所述目标搜索文本进行分词得到分词集合；

从语料库中确定出所述分词集合中每个分词对应的初始纠错词；

计算所述分词集合中每个分词对应的初始纠错词的纠错概率；

将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词；

按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。

2.根据权利要求1所述的方法，其特征在于，所述按照预设规则从所述分词集合中的每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本包括：

当所述分词集合中每个分词的目标纠错词大于1个时，对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本；

计算每个初始纠错文本的纠错概率；

将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。

3.根据权利要求1或2所述的方法，其特征在于，所述计算每个初始纠错文本的纠错概率包括：

通过如下公式计算所述每个初始文本的纠错概率：

其中，p(C,Q)为将Q纠错为C的纠错概率，所述Q为目标搜索文本，所述C为所述每个初始文本中的任意一个，N为所述目标搜索文本中的分词个数，p(c_j|q_j)为q_j纠错为c_j的纠错概率，所述q_j为所述Q中的任意一个分词，所述c_j为所述q_j对应的目标纠错词中的任意一个目标纠错词。

4.根据权利要求1或2所述的方法，其特征在于，所述计算所述分词集合中每个分词对应的纠错词的纠错概率包括：

通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率：

其中，q_j为所述分词集合中的任意一个分词，N(q_j)为q_j在所述语料库中出现的次数，c_j为q_j对应的初始纠错词中的任意一个初始纠错词，N(q_j,c_j)为所述语料库中q_j更正为c_j的次数。

5.根据权利要求1或2所述的方法，其特征在于，所述从语料库中确定出所述分词集合中每个分词对应的纠错词包括：

将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。

6.根据权利要求5所述的方法，其特征在于，所述预设条件为：

或，

其中，q为所述分词集合中的任意一个分词，c为所述语料库中与所述q对应的纠错词，edit(py_c,py_q)为py_c和py_q的编辑距离，所述py_c为所述c的拼音，py_q为所述q的拼音，len(py_c)为所述py_c的长度，len(py_c)为所述py_q的长度，edit(c,q)为所述c与所述q的编辑距离，α为第一预设阈值，β为第二预设阈值。

7.一种纠错文本的确定装置，其特征在于，包括：

获取单元，用于获取用户输入的目标搜索文本；

分词单元，用于对所述目标搜索文本进行分词得到分词集合；

第一确定单元，用于从语料库中确定出所述分词集合中每个分词对应的初始纠错词；

计算单元，用于计算所述分词集合中每个分词对应的初始纠错词的纠错概率；

第二确定单元，用于将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词；

第三确定单元，用于按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司，未经武汉斗鱼网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811452391.5/1.html，转载请声明来源钻瓜专利网。