[发明专利]一种中文拼写纠错方法、装置、计算机设备及存储介质有效
申请号: | 202011306738.2 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112380841B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李俊杰;黄力;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 拼写 纠错 方法 装置 计算机 设备 存储 介质 | ||
1.一种中文拼写纠错方法,其特征在于,包括:
将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
2.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字,包括:
通过查表将所述句子样本中的每个字表示成向量;
将得到的所述向量传入BiGRU或BiLSTM层中,并将每个所述向量对应位置的隐层状态作为对应所述向量经过BiGRU或BiLSTM层的输出;
将所述输出输入到CRF层中,计算每个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字。
3.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合,包括:
使用标识符对所述错别字进行遮罩;
将所述句子样本输入至Transformer模块中,得到所述句子样本中每个字的向量表示;
使用线性层将每个字的向量表示投射到向量空间,并使用softmax激活函数转成选择概率,根据所述选择概率从字典中选择k个候选字添加到对应所述遮罩位置的所述候选字集合中。
4.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤,包括:
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中;
基于汉字的笔画构成,计算所述候选字集合中的所有候选字与对应的所述错别字的笔画编辑距离,并将所述笔画编辑距离作为形近分数;
基于汉字的拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的拼音编辑距离,并将所述拼音编辑距离作为音近分数;
依据所述形近分数与音近分数的权重,对所述形近分数与音近分数进行加权处理,根据加权结果对所述候选字集合进行过滤。
5.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图,包括:
将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建对应所述错别字的替换概率的有向图网络;
将所述错别字与所述每一个候选字之间的替换概率进行初始化;
使用图神经网络对所述有向图网络的边权值进行迭代学习,得到最优的替换概率图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011306738.2/1.html,转载请声明来源钻瓜专利网。