[发明专利]一种文本纠错方法、装置、电子设备以及存储介质在审
| 申请号: | 201811392436.4 | 申请日: | 2018-11-21 |
| 公开(公告)号: | CN109766538A | 公开(公告)日: | 2019-05-17 |
| 发明(设计)人: | 殷子墨;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 纠错 文本 训练语料 原文 神经网络模型 存储介质 电子设备 文本信息 修正 计算机执行 信息纠正 训练过程 训练样本 申请 | ||
1.一种文本纠错方法,其特征在于,所述方法包括:
获取训练语料;
以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
获取待修正的原文本信息;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
2.如权利要求1所述的方法,其特征在于,在利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息之前,所述方法还包括:
建立纠错词典,所述纠错词典包括原字符和多个替换字符;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
3.如权利要求2所述的方法,其特征在于,利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
4.如权利要求3所述的方法,其特征在于,利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
5.如权利要4所述的方法,其特征在于,在根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息之前,所述方法还包括:
获取所述原文本信息包括的多个原字符的字符个数;
利用公式一计算所述原文本信息的修正次数;
所述公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,包括:
根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811392436.4/1.html,转载请声明来源钻瓜专利网。





