[发明专利]一种文本纠错方法、系统、电子设备及存储介质在审
申请号: | 202211371166.5 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115759050A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 罗思明 | 申请(专利权)人: | 北京探境科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F16/332;G06F18/2433;G06N3/02 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 陈丕光 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种文本纠错方法、系统、电子设备及存储介质,包括:获取目标文本,并生成目标文本的语音文件;基于预设词表分析目标文本,确定目标文本中的错词并标注,得到第一检测结果;基于预设检测模型分析目标文本,确定并标注目标文本中的错词,得到第二检测结果;基于第一检测结果生成对应的第一纠错结果,并基于第二检测结果生成对应的第二纠错结果,以使用户基于第一纠错结果、第二纠错结果以及语音文件修改目标文本中的错词。用户可通过听语音文件,确定目标文本中发音不同、字形相似的错别字,检错结果、纠错结果以及语音文件相当于辅助用户修正目标文本,为用户提供参考,提升文本纠错的效率。
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本纠错方法、系统、电子设备及存储介质。
背景技术
在专业领域的自然语言处理研发过程中,需要大规模高质量专业领域语料的支持,各种专业论坛、博客可以提供海量的文本语料,这些语料都来自用户输入,这样就不可避免地引入了诸如错别字、丢字等错误数据。错别字对数据的质量会造成很大的影响,进而影响自然语言模型训练、应用等,因此进行专业领域文本审校,纠正这些错别字,得到高质量的领域文本语料。
传统的检查错别字并纠正的方法可能会采用人工审核的方式,导致每条文本的读取和分析需要的时间成本较高,文本纠错的效率较低。
发明内容
有鉴于此,本发明实施例提供了一种文本纠错方法、系统、电子设备及存储介质,以提高对文本中的错词检测以及纠正的效率。
根据第一方面,本发明实施例提供了一种文本纠错方法,包括:
获取目标文本,并生成所述目标文本的语音文件;
基于预设词表分析所述目标文本,确定所述目标文本中的错词并标注,得到第一检测结果;
基于预设检测模型分析所述目标文本,确定并标注所述目标文本中的错词,得到第二检测结果;
基于所述第一检测结果生成对应的第一纠错结果,并基于所述第二检测结果生成对应的第二纠错结果,以使用户基于所述第一纠错结果、第二纠错结果以及所述语音文件修改所述目标文本中的错词。
本发明实施例提供的文本纠错方法,生成目标文本的语音文件,分别基于预测词表和预设检测模型检测目标文本中的错词,生成第一检测结果和第二检测结果,并对目标文本进行纠错,得到第一纠错结果和第二纠错结果,用户可以根据第一纠错结果、第二纠错结果以及语音文件修改目标文本中的错词。本方法中,用户可通过听语音文件,确定目标文本中发音不同、字形相似的错别字,辅助用户确定目标文本中的错字,第一检测结果、第二检测结果、第一纠错结果、第二纠错结果以及语音文件相当于辅助用户修正目标文本,为用户提供参考,提升文本纠错的效率。
在一些实施方式中,所述基于预设词表分析所述目标文本,确定所述目标文本中的错词并标注,得到第一检测结果,包括:
对所述目标文本进行分词处理,得到分词结果;
基于所述分词结果检索所述预设词表,确定所述目标文本中存在于所述预设词表中的错词,并标注所述错词,得到第一检测结果。
在一些实施方式中,所述基于预设检测模型分析所述目标文本,确定并标注所述目标文本中的错词,得到第二检测结果,包括:
处理所述目标文本,以将所述目标文本划分为多个目标语句;
计算所述多个目标语句中每个字为错字的概率;
当所述错字的概率大于预设检测阈值,则将所述错字确定为目标文本中的错词,并标注所述错词,得到第二检测结果。
在一些实施方式中,所述基于所述第一检测结果生成对应的第一纠错结果,包括:
检索所述第一检测结果中的错词在所述预设词表中对应的每个正确词的频度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京探境科技有限公司,未经北京探境科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211371166.5/2.html,转载请声明来源钻瓜专利网。