[发明专利]印尼语单词检错纠错方法及系统有效
申请号: | 201810734420.0 | 申请日: | 2018-07-05 |
公开(公告)号: | CN109145287B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 蒋盛益;林楠铠;符斯慧;郑铿涛;陈晋毅 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510420 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 印尼 单词 检错 纠错 方法 系统 | ||
本发明公开了一种印尼语单词检错纠错方法及系统,所述方法包括:接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;根据预设的正确词库判断所述待检测单词是否为错误单词;当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率;根据所述组合概率对所述待检测单词进行非词纠错。采用本发明的技术方案能够提高印尼语单词检错纠错的正确率。
技术领域
本发明涉及信息技术中的自然语言处理技术领域,尤其涉及一种印尼语单 词检错纠错方法及系统。
背景技术
在文本处理中,单词作为最基本的单元,是语言处理的基础,单词本身是 否正确对文本的理解有着重要影响,并且单词的拼写错误对词法的研究也有着 重要意义,因此,单词检错纠错一直以来被国内外研究者广泛研究。
印尼作为中国周边具有重要影响的地区大国,是中国周边稳定与和平环境 重要依托之一,也是中国落实“与邻为善、与邻为伴”周边外交政策重要基地之一, 两国无论是在政治、经济还是文化上都有着频繁的交流,如今人们对于印尼语 的使用逐渐增多,相应产生了各种各样的印尼语文本错误,如单词拼写错误和 句子语法错误等问题,由此可见,对印尼语单词的检错纠错在语言学习、中印 交流中将发挥着重要的作用。
但是,由于印尼语属于小语种,印尼语资源稀缺可贵,目前缺乏大规模的 印尼语语料库,现有技术提供的单词检错纠错方法对印尼语并不适用,从而导 致对印尼语单词的检错纠错的正确率较低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种印尼语单词检错纠错方 法及系统,能够提高印尼语单词检错纠错的正确率。
为了解决上述技术问题,本发明实施例提供了一种印尼语单词检错纠错方 法,包括:
接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;
根据预设的正确词库判断所述待检测单词是否为错误单词;
当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述 待检测单词的编辑距离获得M个候选单词;其中,M≥3;
根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述 待检测单词的相邻单词与每个所述候选单词的组合概率;
根据所述组合概率对所述待检测单词进行非词纠错。
进一步地,所述根据预设的正确词库判断所述待检测单词是否为错误单词, 具体包括:
根据预先训练的一元印尼语统计模型获得所述正确词库;
判断所述待检测单词是否存在于所述正确词库中;
当所述待检测单词存在于所述正确词库中时,判定所述待检测单词不为错 误单词;
当所述待检测单词不存在于所述正确词库中时,判定所述待检测单词为错 误单词。
进一步地,所述根据预先训练的一元印尼语统计模型获得所述正确词库, 具体包括:
根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出 现次数;
根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述 正确词库;
对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核,并将 审核通过的单词加入所述正确词库。
进一步地,所述当所述待检测单词为错误单词时,根据所述正确词库中的 每个单词与所述待检测单词的编辑距离获得M个候选单词,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810734420.0/2.html,转载请声明来源钻瓜专利网。