[发明专利]一种兼顾文本长度和相似度的文本纠错方法及系统在审
申请号: | 202210015750.0 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114386404A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 刘学谦;汪玉珠;田贺锁 | 申请(专利权)人: | 北京方寸无忧科技发展有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 陈超 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兼顾 文本 长度 相似 纠错 方法 系统 | ||
1.一种兼顾文本长度和相似度的文本纠错方法,其特征在于,包括:
获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;
在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;
基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。
2.根据权利要求1所述的方法,其特征在于,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
所述长词的长度处于预设长度区间时,选择长度判定;
所述长度判定,具体为:
设置三个滑动窗口,所述三个滑动窗口长度为:
所述长词的长度减一、所述长词的长度和所述长词的长度加一;
所述三个滑动窗口分别对应代表漏字、错字和多字的错误类型;
根据所述滑动窗口长度递增顺序,依次用所述三个滑动窗口截取所述待纠错文本单元,得到相对应长度的文本块;
依次计算出所述文本块和所述长词的编辑距离,并判断所述编辑距离是否为1,若是,则得到与所述滑动窗口对应的错误类型。
3.根据权利要求1所述的方法,其特征在于,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
所述长词的长度大于预设长度区间时,选择相似度判定;
所述相似度判定,具体为:
比较所述待纠错文本单元的长度和所述长词的长度,获得两者中最长长度;
计算所述待纠错文本单元和所述长词的相似度,
相似度=(最长长度-编辑距离)/最长长度,
其中,编辑距离为所述待纠错文本单元与所述长词之间的编辑距离;
判断所述相似度是否超出预设阈值,若是,则通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型。
4.根据权利要求3所述的方法,其特征在于,通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型,具体为:
以所述长词为行,所述待纠错文本单元为列,构建矩阵;
外层循环遍历所述矩阵的行,内层循环遍历矩阵的列;
所述内层循环和外层循环中判断当前位置是否相同索引位置上的字符相同,若是,则记录当前位置为(inow,jnow),并计算idis=inow-ibefore,jdis=jnow-jbefore;
若idis=jdis≠1,则表示此处为错字的错误类型;
若idis>jdis,则表示此处为漏字的错误类型;
若idis<jdis,则表示此处为多字的错误类型;
其中,idis为所述待纠错文本单元的差量,inow为所述待纠错文本单元的现在值,ibefore为所述待纠错文本单元的过去值,jdis为所述长词的差量,jnow为所述长词的现在值,jbefore为所述长词的过去值。
5.根据权利要求2所述的方法,其特征在于,若前面的所述滑动窗口满足判断条件时,则取消后面的所述滑动窗口截取和计算动作。
6.一种兼顾文本长度和相似度的文本纠错系统,其特征在于,包括:
获取模块,用于获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;
搜索模块,用于在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;
判定纠错模块,用于基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210015750.0/1.html,转载请声明来源钻瓜专利网。