[发明专利]一种兼顾文本长度和相似度的文本纠错方法及系统在审
申请号: | 202210015750.0 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114386404A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 刘学谦;汪玉珠;田贺锁 | 申请(专利权)人: | 北京方寸无忧科技发展有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 陈超 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兼顾 文本 长度 相似 纠错 方法 系统 | ||
本发明公开了一种兼顾文本长度和相似度的文本纠错方法及系统,通过在相关数据库中进行搜索,获取与待纠错单元最接近的长词,若长词长度处于预设长度区间,创建滑动窗口,用窗口截取文本块,并求得文本块和长词间的编辑距离,得出错误类型,以此对文本进行纠错。若长词长度大于预设长度区间,则判断相似度是否超出预设阈值,再通过文本对比算法,得出错误类型,并进行纠错。对硬件没有特殊要求,且具有非常好的系统兼容性,纠错效率高,大大缩短校对时间。可以实时、快速、便捷的添加新词来满足新词的纠错,通过设置不同领域的数据库,满足不同领域的长词纠错,且不依赖深度学习技术。
技术领域
本发明涉及搜索技术领域,尤其是涉及一种兼顾文本长度和相似度的文本纠错方法及系统。
背景技术
文本纠错技术通常包括两个部分:检测和纠错,属于深度学习领域分支下自然语言处理的重要课题之一。文本纠错依赖于深度学习模型来进行错误的检测,并使用复杂的计算方式进行正确字、词的召回,以此来纠正错误。这种纠错方式的计算量校大,模型较为复杂,并且纠错的整体效率较低,难以将此技术应用到国产机上。除此之外,深度学习模型一般具有领域局限性,在不同领域内,模型的性能差异非常大,需要耗费人力和机器资源去不断的进行训练以此来满足不同领域的需求。
随着社会的不断发展和进步,新的词汇,口号,固有表述等不断地被创造出来。目前的深度学习模型往往依赖于一个较大、普遍性的预训练模型,并在此基础上做适量的微调,但是随着新词的不断产生,之前的模型无法兼容新词,在短时间内又无法获得足量的训练样本去优化模型。所以,需要一种可以脱离深度学习的技术来提供纠正新产生的词汇的功能。
因此,如何提供一种脱离深度学习的技术来纠正文本错误,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种兼顾文本长度和相似度的文本纠错方法,用于解决现有技术中存在的文本纠错依赖深度学习、整体纠错效率低、费时费力的技术问题。该方法包括:
获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;
在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;
基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。
优选的,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
所述长词的长度处于预设长度区间时,选择长度判定;
所述长度判定,具体为:
设置三个滑动窗口,所述三个滑动窗口长度为:
所述长词的长度减一、所述长词的长度和所述长词的长度加一;
所述三个滑动窗口分别对应代表漏字、错字和多字的错误类型;
根据所述滑动窗口长度递增顺序,依次用所述三个滑动窗口截取所述待纠错文本单元,得到相对应长度的文本块;
依次计算出所述文本块和所述长词的编辑距离,并判断所述编辑距离是否为1,若是,则得到与所述滑动窗口对应的错误类型。
优选的,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
所述长词的长度大于预设长度区间时,选择相似度判定;
所述相似度判定,具体为:
比较所述待纠错文本单元的长度和所述长词的长度,获得两者中最长长度;
计算所述待纠错文本单元和所述长词的相似度,
相似度=(最长长度-编辑距离)/最长长度,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210015750.0/2.html,转载请声明来源钻瓜专利网。