[发明专利]一种基于拼音相同或相似的中文文本纠错方法有效
| 申请号: | 202010496115.X | 申请日: | 2020-06-03 |
| 公开(公告)号: | CN111753529B | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 何卓威 | 申请(专利权)人: | 杭州云嘉云计算有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289 |
| 代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
| 地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 拼音 相同 相似 中文 文本 纠错 方法 | ||
1.一种基于拼音相同或相似的中文文本纠错方法,其特征是,包括以下步骤:
S1,在传统ngrams语言模型基础上做调整,建立粒度为单个中文字符的中文字结构语言模型;
S2,对待纠错语句进行候选处理,生成候选序列;
S3,基于混淆集和MAD算法对候选序列进行检错,获得待纠错语句候选序列;
S4,基于中文字结构语言模型的最大后验概率,使用双选Viterbi算法解码输出纠错结果;
所述步骤S3具体包括:
混淆集检错:
S301,判断待纠错语句中是否有自定义错误集,如果有,则直接输出纠错结果;
S302,判断待纠错语句分词后,词频异常的词组,作为错误集,进入待纠错语句候选序列;
MAD算法检错:
S311,将待纠错语句分别按长度2、3动态分为两组;
S312,计算两组分词语言模型概率;
S313,按分组长度加权平均,得出两组加权概率值;
S314,将两组加权概率值分别取平均值,然后按照MAD算法检错离群值,所述离群值即为错误位置;
所述步骤S314具体包括:
(1)计算所有观察点的中位数median(X);
(2)计算每个观察点与中位数的绝对偏差值abs(X-median(X));
(3)计算(2)中的绝对偏差值的中位数,即MAD = median(abs(X - median(X)));
(4)将(2)得到的值除以(3)的值,得到一组基于MAD的所有观察点的离中心的距离值abs(X - median(X))/MAD;
(5)通过设定阈值,超过阈值的则认为是离群值,即错误位置。
2.根据权利要求1所述的一种基于拼音相同或相似的中文文本纠错方法,其特征是,所述步骤S1具体包括:
S101,语料预处理并生成分词文件;
S102,分词文件转换成拼音词组,再将拼音词组拆成字结构,所有字结构组成字结构文本;
S103,使用最终转换成字结构的文本生成粒度为单个中文字符的中文字结构语言模型。
3.根据权利要求2所述的一种基于拼音相同或相似的中文文本纠错方法,其特征是,所述步骤S1具体包括:
S104,将中文字结构语言模型升级为类语言模型,把类似的词组成词类,然后计算N-gram统计量的时候使用词类标签来替代词。
4.根据权利要求2所述的一种基于拼音相同或相似的中文文本纠错方法,其特征是,所述步骤S101具体包括:
S111,文本语料统一半角格式、去除标点、分行处理;
S112,中文数字转换为阿拉伯数字;
S113,使用中文jieba分词库进行分词,获得分词文件。
5.根据权利要求1所述的一种基于拼音相同或相似的中文文本纠错方法,其特征是,所述步骤S2具体包括:根据同音或音似规则,一句话逐字生成候选序列,每字一层,平均每层候选个数在100-150之间,优化常见多音字拼音,将少量、不常用发音剔除。
6.根据权利要求1所述的一种基于拼音相同或相似的中文文本纠错方法,其特征是,所述双选viterbi算法,使用beamsearch算法联合viterbi算法具体包括:
S401,设置BeamSize1和BeamSize2两个参数进行约束,其中BeamSize1 BeamSize2;
S402,当前候选层使用beamsearch算法按路径获取BeamSize1个最大概率路径;
S403,排除BeamSize1个路径已包含的节点,从剩余的节点中按viterbi算法依节点补位BeamSize2- BeamSize1个节点,即每层BeamSize2个最大概率路径;
S404,利用最大概率路径输出纠错结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉云计算有限公司,未经杭州云嘉云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010496115.X/1.html,转载请声明来源钻瓜专利网。





