[发明专利]一种基于字符特征分类器与软输出的中文拼写检查方法有效

专利信息
申请号: 202110599111.9 申请日: 2021-05-31
公开(公告)号: CN113255330B 公开(公告)日: 2021-09-24
发明(设计)人: 李芳芳;单悠然;李伟;彭亦楠 申请(专利权)人: 中南大学
主分类号: G06F40/232 分类号: G06F40/232;G06F16/35
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 陈钊
地址: 410000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 字符 特征 分类 输出 中文 拼写 检查 方法
【说明书】:

发明公开了一种基于字符特征分类器与软输出的中文拼写检查方法,属于中文拼写检查领域,包括步骤S1:提取词表中所有字符的字音字形特征向量;S2:生成字符特征分类器和软输出矩阵;S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;S4:结合软输出矩阵对字符特征分类器结果进行软输出,将两概率矩阵对应位相乘,得到每个字符被更改为其他字符的概率。字符特征分类器可对更相似的字符给予更高的关注度,同时,使用软输出矩阵对字符特征分类器的结果进行调整,缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题,得到了更为准确地结果。

技术领域

本发明属于中文拼写检查领域,尤其涉及一种基于字符特征分类器与软输出的中文拼写检查方法。

背景技术

中文拼写检查是自然语言处理中的一项重要任务。可以帮助新闻编辑快速审查新闻中是否存在错别字,降低人工检查的工作量。同时,错别字也可以看做是其他自然语言处理任务中原始语料的噪声,进行中文拼写检查,降低语料中的错别字,可以有效提高数据质量,对下游任务精度的提高起到一定的作用。常用的进行中文拼写检查任务的方法主要基于传统的统计学习的方法与基于深度学习的方法。基于传统的统计学习的方法通常人工设计大量的特征,但这样的方法需要大量的人工工作,在特征的选择上也存在一定的难点,也缺乏灵活性。目前的技术渐渐步入深度学习时代,深度学习的方法表现出更好的效果。

目前最常用的中文拼写检查的方法是基于预训练语言模型并结合字符间相似度的方法。其中结合字符间相似度的方法多种多样,包括设计计算字符间相似度的函数并人工设置阈值和使用图神经网络在混淆集中的相似字符间传播信息,但是这些面临着3个问题:(1)人工设置的相似度阈值较难达到最优,同时会使模型忽略与原始字符相似度低的所有候选项,虽然错别字大部分是正确字符的相似字符,但依然存在低相似度的错别字。(2)目前广泛应用于中文拼写检查任务的混淆集大多是人工构建的,且在模型的运行期间是固定的,在混淆集包含的相似字符间传递信息,模型无法学习到混淆集以外的相似字符信息,在一定程度上降低了模型的召回能力。(3)在混淆集中相似字符间传递信息时,并没有考虑到字符间相似性的大小,而是一视同仁的传递字符的信息。模型对较高相似度的字符与较低相似度的字符拥有相同的关注度。

发明内容

本发明的目的在于克服上述现有技术的不足,提供了一种使模型在不丢弃低相似度字符的同时根据相似度的提高而给予更高的关注度的,且防止检测出当前位置为错别字时对原始字符给予过高关注度的中文拼写检查方法,具体为一种基于字符特征分类器与软输出的中文拼写检查方法。

一种基于字符特征分类器与软输出的中文拼写检查方法,包括如下步骤:

S1:提取词表中所有字符的字音字形特征向量,

S1.1:中文字符,抽取字音特征向量和字形特征向量构建字音字形特征向量,

S1.2:非中文字符,以其嵌入向量作为字音字形特征向量;

S2:生成字符特征分类器和软输出矩阵,组合词表中每个字符的字音字形特征向量生成字符特征分类器,同时通过错误检测网络获取词表中每个字符错误的概率,根据每个字符错误的概率生成软输出矩阵;

S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;

S4:结合软输出矩阵对字符特征分类器结果进行软输出,将概率矩阵与软输出矩阵的对应位相乘,得到每个字符被更改为其他字符的概率。

作为本发明的进一步限定,S1.1中得到字音特征向量时,采集大规模网络新闻,并统计多音字的不同读音在大规模语料中出现的比例,将每个字符的声母、韵母和声调分别嵌入,并联结输入全连接层,根据字符不同读音的权重进行加权求和获得字音特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110599111.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top