[发明专利]一种文本纠错方法、装置、电子设备以及存储介质在审
申请号: | 201811392436.4 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109766538A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 殷子墨;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 文本 训练语料 原文 神经网络模型 存储介质 电子设备 文本信息 修正 计算机执行 信息纠正 训练过程 训练样本 申请 | ||
本申请提供了一种文本纠错方法、装置、电子设备以及存储介质,所述方法包括:获取训练语料;以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;获取待修正的原文本信息;利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。在对原文本信息纠正之前,利用获取到的训练语料对神经网络模型进行训练,以得到文本纠错模型,由于训练过程是由计算机执行,并且花费的时间较少,所以文本信息纠错的效率较高。
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本纠错方法、装置、电子设备以及存储介质。
背景技术
随着人机交互技术的不断发展,计算机开始接受用户以文字(或语音自动转换成的文字)的方式输入指令或问题,然后由计算机执行指令或搜索问题答案。由于用户输入的文字中可能包含错误文符(如错别字、汉字输入成拼音等),导致计算机不能获得准确的指令或问题。相关技术中,提供了一种文本纠错方法来解决上述问题。首先,需要建立纠错词典,所述纠错词典包括出现概率低的原字符串和替换字符串,然后计算机利用建立好的纠错词典,直接将需要修正的文本信息中的现概率低的原字符串换为替换字符串,以完成文本信息的修正。
由于在对原文本信息进行纠错之前,需要建立纠错词典,而纠错词典是由人工定制的,在定制纠错词典时会花费大量时间和精力,导致该方法的文本信息纠错效率较低。
发明内容
为解决上述问题,本申请提供一种文本纠错方法、装置、电子设备以及存储介质。
根据本申请的第一个方面,提供一种文本纠错方法,所述方法包括:
获取训练语料;
以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
获取待修正的原文本信息;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,在利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息之前,所述方法还包括:
建立纠错词典,所述纠错词典包括原字符和多个替换字符;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,其特征在于,利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811392436.4/2.html,转载请声明来源钻瓜专利网。