[发明专利]一种基于字符特征分类器与软输出的中文拼写检查方法有效
| 申请号: | 202110599111.9 | 申请日: | 2021-05-31 |
| 公开(公告)号: | CN113255330B | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 李芳芳;单悠然;李伟;彭亦楠 | 申请(专利权)人: | 中南大学 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F16/35 |
| 代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 陈钊 |
| 地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 字符 特征 分类 输出 中文 拼写 检查 方法 | ||
1.一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,该方法包括如下步骤:
S1:提取词表中所有字符的字音字形特征向量,
S1.1:中文字符,抽取字音特征向量和字形特征向量构建字音字形特征向量,
S1.2:非中文字符,以其嵌入向量作为字音字形特征向量;
S2:生成字符特征分类器和软输出矩阵,组合词表中每个字符的字音字形特征向量生成字符特征分类器,同时通过错误检测网络获取词表中每个字符错误的概率,根据每个字符错误的概率生成软输出矩阵;
S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;
S4:结合软输出矩阵对字符特征分类器结果进行软输出,将概率矩阵与软输出矩阵的对应位相乘,得到每个字符被更改为其他字符的概率。
2.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字音特征向量时,采集大规模网络新闻,并统计多音字的不同读音在大规模语料中出现的比例,将每个字符的声母、韵母和声调分别嵌入,并联结输入全连接层,根据字符不同读音的权重进行加权求和获得字音特征向量。
3.根据权利要求2所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字形特征向量时,使用表意字符描述序列描述词表中字符的结构,对字符序列中的每一个笔画进行编码,并使用BIGRU抽取字形特征向量。
4.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中将字音特征向量和字形特征向量进行合并得到字音字形特征向量。
5.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.2中,对于没有字音字形特征的非中文字符,通过预训练语言模型得到该字符的嵌入向量,将该字符的嵌入向量作为其字音字形特征向量。
6.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S3中,将待纠错句子中每个字符通过字符特征分类器得到当前字符被更改为其他字符的概率,将当前字符的所有概率组合得到词表大小的概率矩阵;通过错误检测网络得到的每个字符错误的概率组成词表大小的软输出矩阵。
7.根据权利要求6所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,软输出矩阵中每个索引的概率数值计算公式为:
其中,表示当前字符在词表中的索引,表示当前字符的软输出矩阵中索引为位置的数值,表示当前字符为错别字的概率。
8.根据权利要求3所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,所述抽取字形特征向量的方法还可以使用全连接层抽取字形特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110599111.9/1.html,转载请声明来源钻瓜专利网。





