[发明专利]一种英文单词拼写检查方法在审
| 申请号: | 201810555195.4 | 申请日: | 2018-06-01 |
| 公开(公告)号: | CN109033065A | 公开(公告)日: | 2018-12-18 |
| 发明(设计)人: | 邵玉斌;王林坪;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 单词 编辑距离 单词集合 拼写检查 英文单词 按键编辑距离 输入单词 自然语言处理技术 视觉 加权编辑距离 文本编辑器 阈值筛选 常规的 相似度 冗余 匹配 近似 英文 引入 | ||
本发明涉及一种英文单词拼写检查方法,属于自然语言处理技术领域。首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键编辑距离模型,计算出输入单词与单词集合中的所有单词的按键编辑距离,其次,视觉编辑距离模型,计算出输入单词与单词集合中的所有单词的视觉编辑距离;最后,给予以上计算所得的相似度相应的权值,通过加权编辑距离计算。本发明与现有技术相比,主要解决了现阶段文本编辑器对英文单词进行拼写检查的不准确性和冗余过多等现象,可以把匹配到的近似单词集缩小到更精确的范围。
技术领域
本发明涉及一种英文单词拼写检查方法,属于自然语言处理技术领域。
背景技术
当前,使用Word或WPS之类文本编辑器的用户越来越多,尤其对办公人员来说,使用这些文本编辑软件是工作中最主要的一部分,然而在打字过程中拼写错误的情况时常发生。
Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。在现阶段的拼写检查方法中,大多就是使用编辑距离来进行纠错,虽然这种方法可以匹配出小于编辑距离范围内的一部分单词,但是它存在局限性是很难设定一个统一的阈值,结果可能出现错误或遗漏,并且若在统一阈值下存在较多单词,它也会列出所有符合规则的单词,不利于用户的选择。
发明内容
本发明要解决的技术问题是提供一种英文单词拼写检查方法,以用于解决Levenshtein距离对阈值设定过大或者过小出现的偏差,能把单词集缩小到更精确的范围。
本发明的技术方案是:一种英文单词拼写检查方法,首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键编辑距离模型,计算出输入单词与单词集合中的所有单词的按键编辑距离,其次,视觉编辑距离模型,计算出输入单词与单词集合中的所有单词的视觉编辑距离;最后,给予以上计算所得的相似度相应的权值,通过加权编辑距离计算。
所述方法的具体步骤如下:
Step0.1:建立键盘字母近似数据库。根据每个手指对键盘上各个字母键的控制情况制定出可以反应任意字母键之间近似程度的规则,根据规则计算任意字母与字母之间的相近程度并存入数据库,组建键盘字母近似数据库;
Step0.2:建立字母视觉相似数据库。人工查看每两个字母在屏幕上的相似情况,根据这些相似情况设计出一种可以反应出字母相似情况的一种规则,根据规则计算任意字母与字母之间的视觉误差距离并存入数据库,组建视觉字母近似数据库;
Step1:选中所需进行拼写检查的单词A;
Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定;
Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);
Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810555195.4/2.html,转载请声明来源钻瓜专利网。





