[发明专利]一种基于字符特征分类器与软输出的中文拼写检查方法有效

专利信息
申请号: 202110599111.9 申请日: 2021-05-31
公开(公告)号: CN113255330B 公开(公告)日: 2021-09-24
发明(设计)人: 李芳芳;单悠然;李伟;彭亦楠 申请(专利权)人: 中南大学
主分类号: G06F40/232 分类号: G06F40/232;G06F16/35
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 陈钊
地址: 410000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 字符 特征 分类 输出 中文 拼写 检查 方法
【权利要求书】:

1.一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,该方法包括如下步骤:

S1:提取词表中所有字符的字音字形特征向量,

S1.1:中文字符,抽取字音特征向量和字形特征向量构建字音字形特征向量,

S1.2:非中文字符,以其嵌入向量作为字音字形特征向量;

S2:生成字符特征分类器和软输出矩阵,组合词表中每个字符的字音字形特征向量生成字符特征分类器,同时通过错误检测网络获取词表中每个字符错误的概率,根据每个字符错误的概率生成软输出矩阵;

S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;

S4:结合软输出矩阵对字符特征分类器结果进行软输出,将概率矩阵与软输出矩阵的对应位相乘,得到每个字符被更改为其他字符的概率。

2.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字音特征向量时,采集大规模网络新闻,并统计多音字的不同读音在大规模语料中出现的比例,将每个字符的声母、韵母和声调分别嵌入,并联结输入全连接层,根据字符不同读音的权重进行加权求和获得字音特征向量。

3.根据权利要求2所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字形特征向量时,使用表意字符描述序列描述词表中字符的结构,对字符序列中的每一个笔画进行编码,并使用BIGRU抽取字形特征向量。

4.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中将字音特征向量和字形特征向量进行合并得到字音字形特征向量。

5.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.2中,对于没有字音字形特征的非中文字符,通过预训练语言模型得到该字符的嵌入向量,将该字符的嵌入向量作为其字音字形特征向量。

6.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S3中,将待纠错句子中每个字符通过字符特征分类器得到当前字符被更改为其他字符的概率,将当前字符的所有概率组合得到词表大小的概率矩阵;通过错误检测网络得到的每个字符错误的概率组成词表大小的软输出矩阵。

7.根据权利要求6所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,软输出矩阵中每个索引的概率数值计算公式为:

其中,表示当前字符在词表中的索引,表示当前字符的软输出矩阵中索引为位置的数值,表示当前字符为错别字的概率。

8.根据权利要求3所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,所述抽取字形特征向量的方法还可以使用全连接层抽取字形特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110599111.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top