[发明专利]文字拼写错误的修正方法、系统、计算机设备及存储介质在审
申请号: | 201810271932.8 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108563632A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 余永文 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼写 修正 候选句子 混淆 计算机设备 存储介质 概率运算 候选字集 语句 错误修正 模型检测 集合 文本 检测 | ||
本发明涉及一种文字拼写错误的修正方法、系统、计算机设备及存储介质所述修正方法包括:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。本发明的技术方案实现了对文本输入中的拼写错误准确、高效的修正。
技术领域
本发明涉及计算机软件技术领域,特别是涉及一种文字拼写错误的修正方法、系统、计算机设备及存储介质。
背景技术
随着计算机软件技术的不断发展,对于文本信息的检索、抽取、翻译等技术逐渐成熟,然而对于文本的校对还没有准确高效的方法。
对于文本中错别字的修正是文本校对的核心环节,文本中的错字严重影响了文本的质量,例如,新闻稿件对错别字的要求十分严格,如果没有对稿件中的错别字进行及时的纠正,可能会向读者传递错误信息,所以对于文本中错字的修正具有重要意义。
传统输入错误的修正方法主要采用基于统计的方法,此方法需要根据上下文中的字、词等的特征,建立统计语言模型,此方法依赖统计语言模型,在建立统计语言模型的过程中,统计数据稀疏问题会严重影响其修正的效率和精度,难以对文本输入中的拼写错误进行准确、高效的修正。
发明内容
基于此,有必要针对上述难以对文本输入中的拼写错误进行准确、高效的修正的问题,提供一种文字拼写错误的修正方法、系统、计算机设备及存储介质。
一种文字拼写错误的修正方法,包括以下步骤:
获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;
分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;
将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;
根据所述概率运算值选择候选句子修正所述待修正语句。
上述文字拼写错误的修正方法,通过获取的待修正语句的各个位置上拼写错误的文字从混淆字集中选择混淆字,组成对应位置的候选字集;然后对各个位置上的候选字集进行笛卡尔积,得到多组候选句子输入预先训练的拼写错误修正模型检测进行检测并计算概率运算值;再根据概率运算值选择候选句子修正待修正语句。该技术方案实现了对文本输入中的拼写错误准确、高效的修正。
在一个实施例中,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集的步骤包括:
获取所述拼写错误的文字在混淆字集中出现概率最大的K个混淆字,组成对应位置的候选字集;其中,K≥2,所述出现概率为拼写错误的文字所对应的混淆字集中各个候选字在当前位置上的出现概率;
根据所述概率运算值选择候选句子修正所述待修正语句的步骤包括:将所述概率运算值最大的候选句子替换所述待修正语句。
在一个实施例中,所述的文字拼写错误的修正方法还包括:
利用所述拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述出现概率识别待修正语句中拼写错误的文字。
在一个实施例中,所述利用预先训练的拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271932.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然语言地址描述的自动识别方法
- 下一篇:一种语音处理方法和服务器