[发明专利]一种基于多模态模型的汉字易混淆集构建方法有效
申请号: | 202110402126.1 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112990353B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 李芳芳;汪业成;林中尧;单悠然;毛星亮 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/68;G06N3/08;G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L25/51 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 滕澧阳 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 模型 汉字 混淆 构建 方法 | ||
本发明涉及汉字易混淆集构建领域,公开了一种基于多模态模型的汉字易混淆集构建方法。S1:得到字形编码的相似度,S2:得到字音编码的相似度,S3:构建并训练出一个图像分类的神经网络模型,由图像分类的神经网络模型输出一个
技术领域
本发明属于汉字易混淆集构建领域,尤其涉及一种基于多模态模型的汉字易混淆集构建方法。
背景技术
中文文本纠错是中文自然语言处理中一项传统而重要的预处理任务。对于一段含有拼写错误的自然文本,如果没有纠正就去做文本分类和命名实体识别等自然语言任务,势必会影响做这些任务的模型的学习效果和判断能力。
人输入的字句尤其是长文本时,即使经历多次检查,也会或多或少都出现语病、错别字、漏字多字等错误,这是因为人很难长时间保持专注。此外如果是自己检查自己写的文字,那么思维的定势也将会影响错误的检查。
而使用计算机算法实现的拼写检查,可以帮助人们做拼写检查,甚至纠错的工作。因此,拼写检查对文字出版商,对学生论文的修改等应用场景具有重要的意义。
易混淆集是现在大多数拼写检查和拼写纠错任务都使用到的一个重要数据。如,我们在文本中需要使用到“爆”的地方,很容易错误会被替换成“暴”,“曝”等词,造成一些拼写甚至语法上的错误。这里“暴”,“曝”等字构成的集合就是“爆”的易混淆集。
易混淆集一直在中文文本纠错中扮演着重要角色。
Linetal.2015用易混淆集和N-gram算法做中文文本纠错;
Wangetal.2019用易混淆集和指针网络做中文文本纠错;
Chengetal.2020分别用字音的易混淆集和字形的易混淆集构建一个图,然后用图神经网络的方法把图嵌入成向量。接着用该向量与Bert模型的输出进行对应元素相乘,得出结果作为最后输出的预测向量。
关于易混淆集的生成,有学者对4100个错误的汉字的研究统计,发现76%的错误与正确字符和错误字符之间的语音相似性有关,46%是由于视觉相似性,29%涉及两个因素。这表明汉字与该汉字对应的易混淆集的易混淆性,往往与字音和字形的相似度有关。
近年来,已经有很多学者基于这点,提出了生成易混淆集的一些方式,包括:
Liuetal.2011用仓颉码进判断汉字之间的视觉相似性,用经验规则来确定汉语音素之间的相似度。接着混合字形和字音相似度,并取相似度达到阈值的项选为易混淆集。
Shietal.2014利用笔顺相似度和字音的点阵相似度构建初始易混淆集。然后在原有易混淆集的基础上,根据易混淆关系构建一张图,在图上设计了一些基于规则的自扩展算法和开源外部补充算法,来扩展易混淆集。
Leeetal.2019使用Jaccard系数计算字形相似度;为韵母、音调分别制定规则,计算字音相似度,然后综合音形相似度生成易混淆集。
目前为止,中文易混淆集的生成,基本都使用了字音形相似的思路。不过目前这些文章的思路都有一个明显的共性,就是对官方给出的汉字的字音和字形的编码来设定特定的规则求字音和字形的相似度;而不是从模拟人本身的视觉和听觉感官来评估字音和字形对于人的易混淆程度。这种直接的方式会带来以下两个问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110402126.1/2.html,转载请声明来源钻瓜专利网。