[发明专利]文字拼写错误的修正方法、系统、计算机设备及存储介质在审
申请号: | 201810271932.8 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108563632A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 余永文 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼写 修正 候选句子 混淆 计算机设备 存储介质 概率运算 候选字集 语句 错误修正 模型检测 集合 文本 检测 | ||
1.一种文字拼写错误的修正方法,其特征在于,包括以下步骤:
获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;
分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;
将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;
根据所述概率运算值选择候选句子修正所述待修正语句。
2.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集的步骤包括:
获取所述拼写错误的文字在混淆字集中出现概率最大的K个混淆字,组成对应位置的候选字集;其中,K≥2,所述出现概率为拼写错误的文字所对应的混淆字集中各个候选字在当前位置上的出现概率;
根据所述概率运算值选择候选句子修正所述待修正语句的步骤包括:
将所述概率运算值最大的候选句子替换所述待修正语句。
3.根据权利要求2所述的文字拼写错误的修正方法,其特征在于,还包括:
利用所述拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述出现概率识别待修正语句中拼写错误的文字。
4.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述利用预先训练的拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率的步骤包括:
将待修正语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;
获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个候选字在当前位置上的出现概率。
5.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述根据所述出现概率识别待修正语句中拼写错误的文字的步骤包括:
若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;
若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。
6.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,所述将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值的步骤包括:
将所述候选句子分别输入预先训练的拼写错误修正模型检测各个位置的文字的出现概率;
分别将各个位置的文字的出现概率进行相加或相乘,得到所述候选句子的概率运算值。
7.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,还包括:
利用自然语言的语料数据并建立拼写错误检测的训练模型;
对所述语料数据进行预处理得到训练语料句子;
利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。
8.根据权利要求7所述的文字拼写错误的修正方法,其特征在于,所述对所述语料数据进行预处理得到训练语料句子的步骤包括:
将所述训练模型中的语料数据中的冗余内容进行删除,以及将非文字的数据用字母进行替换;
以文字和所述字母为单位对语料数据中的句子进行分割,并在句子开头和结尾添加句子开头标记和句子结尾标记,生成训练语料句子。
9.根据权利要求8所述的文字拼写错误的修正方法,其特征在于,基于循环神经网络技术建立单向的拼写错误检测的训练模型;通过前向输入的训练语料句子对所述训练模型进行训练,得到单向的拼写错误检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271932.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然语言地址描述的自动识别方法
- 下一篇:一种语音处理方法和服务器