[发明专利]一种文本纠错方法、装置、电子设备以及存储介质在审

申请号：	201811392436.4	申请日：	2018-11-21
公开（公告）号：	CN109766538A	公开（公告）日：	2019-05-17
发明（设计）人：	殷子墨;李健;张连毅;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	纠错文本训练语料原文神经网络模型存储介质电子设备文本信息修正计算机执行信息纠正训练过程训练样本申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种文本纠错方法、装置、电子设备以及存储介质，所述方法包括：获取训练语料；以所述训练语料为训练样本，对神经网络模型进行训练，以得到文本纠错模型；获取待修正的原文本信息；利用所述文本纠错模型对所述原文本信息进行修正，以得到修正后的文本信息。在对原文本信息纠正之前，利用获取到的训练语料对神经网络模型进行训练，以得到文本纠错模型，由于训练过程是由计算机执行，并且花费的时间较少，所以文本信息纠错的效率较高。

技术领域

本申请涉及文本处理技术领域，特别是涉及一种文本纠错方法、装置、电子设备以及存储介质。

背景技术

随着人机交互技术的不断发展，计算机开始接受用户以文字(或语音自动转换成的文字)的方式输入指令或问题，然后由计算机执行指令或搜索问题答案。由于用户输入的文字中可能包含错误文符(如错别字、汉字输入成拼音等)，导致计算机不能获得准确的指令或问题。相关技术中，提供了一种文本纠错方法来解决上述问题。首先，需要建立纠错词典，所述纠错词典包括出现概率低的原字符串和替换字符串，然后计算机利用建立好的纠错词典，直接将需要修正的文本信息中的现概率低的原字符串换为替换字符串，以完成文本信息的修正。

由于在对原文本信息进行纠错之前，需要建立纠错词典，而纠错词典是由人工定制的，在定制纠错词典时会花费大量时间和精力，导致该方法的文本信息纠错效率较低。

发明内容

为解决上述问题，本申请提供一种文本纠错方法、装置、电子设备以及存储介质。

根据本申请的第一个方面，提供一种文本纠错方法，所述方法包括：

获取训练语料；

以所述训练语料为训练样本，对神经网络模型进行训练，以得到文本纠错模型；

获取待修正的原文本信息；

利用所述文本纠错模型对所述原文本信息进行修正，以得到修正后的文本信息。

可选的，在利用所述文本纠错模型对所述原文本信息进行修正，以得到修正后的文本信息之前，所述方法还包括：

建立纠错词典，所述纠错词典包括原字符和多个替换字符；

利用所述文本纠错模型对所述原文本信息进行修正，以得到修正后的文本信息，包括：

利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正，以得到修正后的文本信息。