[发明专利]一种智能化文本纠错模型训练方法在审
| 申请号: | 202110371422.X | 申请日: | 2021-04-07 |
| 公开(公告)号: | CN112989806A | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 黄志春;张定国;伍宇文;李韧;康文静 | 申请(专利权)人: | 广州伟宏智能科技有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/216;G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 佛山市神机营专利代理事务所(普通合伙) 44765 | 代理人: | 许尤庆 |
| 地址: | 510000 广东省广州市天河区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能化 文本 纠错 模型 训练 方法 | ||
本发明公开了一种智能化文本纠错模型训练方法,包括以下步骤:S1、获取待纠错文本;S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;S5、候选筛选,得到最优的纠正方案。该种智能化文本纠错模型训练方法,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率。
技术领域
本发明涉及智能文本分析技术领域,具体为一种智能化文本纠错模型训练方法。
背景技术
文本纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块,其重要程度不言而喻。在日常生活中,我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字,同时随着各自社交网站的发展,语音对话在社交软件中在不断普及,为了使得接收语音方在不方便接收语音时,也能及时接收到对方发送的内容,因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化,在转文字过程中,容易出现错误句子,最终会导致接收方不明确对方的意图。
现有技术中为了实现文本纠错的功能,主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,利用评分函数或者分类器对多个候选文本进行排序,从多个候选文本中筛选出最合理的文本。然而在基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能满足现阶段用户对文本纠错功能的需求,因此我们对此做出改进,提出一种智能化文本纠错模型训练方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种智能化文本纠错模型训练方法,包括以下步骤:
S1、获取待纠错文本;
S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;
S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;
S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;
S5、候选筛选,得到最优的纠正方案。
作为本发明的一种优选技术方案,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。
作为本发明的一种优选技术方案,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。
作为本发明的一种优选技术方案,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。
作为本发明的一种优选技术方案,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州伟宏智能科技有限公司,未经广州伟宏智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110371422.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:机器人用谐波减速器性能测试平台
- 下一篇:冰箱





