[发明专利]一种基于多模态模型的汉字易混淆集构建方法有效

申请号：	202110402126.1	申请日：	2021-04-14
公开（公告）号：	CN112990353B	公开（公告）日：	2021-07-30
发明（设计）人：	李芳芳;汪业成;林中尧;单悠然;毛星亮	申请（专利权）人：	中南大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/68;G06N3/08;G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L25/51
代理公司：	长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228	代理人：	滕澧阳
地址：	410000 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态模型汉字混淆构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及汉字易混淆集构建领域，公开了一种基于多模态模型的汉字易混淆集构建方法。S1：得到字形编码的相似度，S2：得到字音编码的相似度，S3：构建并训练出一个图像分类的神经网络模型，由图像分类的神经网络模型输出一个M维的向量，S4：构建并训练出一个音频分类的神经网络模型，由音频分类的神经网络模型输出一个M维的向量，S5：将汉字字符C_i的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量，加权组合为一个向量，作为音形易混淆向量，从而依据音形易混淆向量中每个维度上的相似度，选择对应的字典Dic中的汉字，构成音形易混淆集。本发明能够模拟人的视觉和听觉构建易混淆集。

技术领域

本发明属于汉字易混淆集构建领域，尤其涉及一种基于多模态模型的汉字易混淆集构建方法。

背景技术

中文文本纠错是中文自然语言处理中一项传统而重要的预处理任务。对于一段含有拼写错误的自然文本，如果没有纠正就去做文本分类和命名实体识别等自然语言任务，势必会影响做这些任务的模型的学习效果和判断能力。

人输入的字句尤其是长文本时，即使经历多次检查，也会或多或少都出现语病、错别字、漏字多字等错误，这是因为人很难长时间保持专注。此外如果是自己检查自己写的文字，那么思维的定势也将会影响错误的检查。

而使用计算机算法实现的拼写检查，可以帮助人们做拼写检查，甚至纠错的工作。因此，拼写检查对文字出版商，对学生论文的修改等应用场景具有重要的意义。

易混淆集是现在大多数拼写检查和拼写纠错任务都使用到的一个重要数据。如，我们在文本中需要使用到“爆”的地方，很容易错误会被替换成“暴”，“曝”等词，造成一些拼写甚至语法上的错误。这里“暴”，“曝”等字构成的集合就是“爆”的易混淆集。

易混淆集一直在中文文本纠错中扮演着重要角色。

Linetal.2015用易混淆集和N-gram算法做中文文本纠错;

Wangetal.2019用易混淆集和指针网络做中文文本纠错；

Chengetal.2020分别用字音的易混淆集和字形的易混淆集构建一个图，然后用图神经网络的方法把图嵌入成向量。接着用该向量与Bert模型的输出进行对应元素相乘，得出结果作为最后输出的预测向量。

关于易混淆集的生成，有学者对4100个错误的汉字的研究统计，发现76%的错误与正确字符和错误字符之间的语音相似性有关，46%是由于视觉相似性，29%涉及两个因素。这表明汉字与该汉字对应的易混淆集的易混淆性，往往与字音和字形的相似度有关。

近年来，已经有很多学者基于这点，提出了生成易混淆集的一些方式，包括：

Liuetal.2011用仓颉码进判断汉字之间的视觉相似性,用经验规则来确定汉语音素之间的相似度。接着混合字形和字音相似度，并取相似度达到阈值的项选为易混淆集。

Shietal.2014利用笔顺相似度和字音的点阵相似度构建初始易混淆集。然后在原有易混淆集的基础上，根据易混淆关系构建一张图，在图上设计了一些基于规则的自扩展算法和开源外部补充算法，来扩展易混淆集。

Leeetal.2019使用Jaccard系数计算字形相似度；为韵母、音调分别制定规则，计算字音相似度，然后综合音形相似度生成易混淆集。

目前为止，中文易混淆集的生成，基本都使用了字音形相似的思路。不过目前这些文章的思路都有一个明显的共性，就是对官方给出的汉字的字音和字形的编码来设定特定的规则求字音和字形的相似度；而不是从模拟人本身的视觉和听觉感官来评估字音和字形对于人的易混淆程度。这种直接的方式会带来以下两个问题：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110402126.1/2.html，转载请声明来源钻瓜专利网。

上一篇：低粘性的炭黑材料配方、添加装置及制备方法
下一篇：一种网络舆情云平台接入运行效能的评估方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态模型的汉字易混淆集构建方法有效

专利文献下载