[发明专利]一种基于校验规则的OCR识别结果纠错方法、设备有效
申请号: | 202110449444.3 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113128504B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 郑颖;宋少龙;林少伟 | 申请(专利权)人: | 福州符号信息科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/98 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 何小星 |
地址: | 350000 福建省福州市鼓楼*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 校验 规则 ocr 识别 结果 纠错 方法 设备 | ||
1.一种基于校验规则的OCR识别结果纠错方法,其特征在于,包括如下步骤:
S1、利用OCR算法识别图像中的字符串,得到识别结果;所述字符串包括若干个字段,并预先设置有对应的校验规则;所述校验规则规定字符串各字段中字符的类型;
S2、根据识别结果中字符数量、类别标识符、字符所占行数中至少一者,判断字符串类别,并获取该字符串类别对应的校验规则;所述类别标识符为字符串中预先设置的一个用于标识字符串类别的字段;
S3、根据所述校验规则,对识别结果进行检错:在识别结果中查找字符类型不满足校验规则的字符,记该字符为错误字符;
所述校验规则还规定:字符串中设置有至少一个校验字符;所述校验字符对应字符串中的若干个字符,并由所述若干个字符计算得到;根据所述校验规则,对识别结果进行检错:根据识别结果,计算校验字符;比对计算得到的校验字符和识别结果中的校验字符,若比对结果一致,则该校验字符对应的若干个字符不存在错误字符;否则,该校验字符对应的若干个字符存在错误字符;
所述计算校验字符,以公式表达为:
Xcheck=Sum mod 10
式中:X1,X2,X3,…,Xn为对所述校验字符对应n个字符进行赋值得到的n个数值;Sum表示所述n个数值的加权叠加值,Xcheck为校验字符;
S4、根据校验规则和检错结果,对识别结果进行纠错:预先设置一用于纠错的替换字符集,所述替换字符集包括若干个形状相似字符之间的对应关系;根据替换字符集查找所述错误字符对应的相似字符,若相似字符符合错误字符所在字段的校验规则,则将错误字符替换为该相似字符。
2.根据权利要求1所述的一种基于校验规则的OCR识别结果纠错方法,其特征在于,在所述步骤S3与所述步骤S4之间,还包括:根据检错结果,再次判断所述字符串类别是否正确,若字符串类别正确,则对识别结果进行纠错;否则舍弃该识别结果。
3.根据权利要求2所述的一种基于校验规则的OCR识别结果纠错方法,其特征在于,所述根据检错结果,再次判断所述字符串类别是否正确,具体为:若所述错误字符的个数超过第一阈值或不包含错误字符的字段个数低于第一阈值,则字符串类别不正确;否则字符串类别正确。
4.根据权利要求1所述的一种基于校验规则的OCR识别结果纠错方法,其特征在于,还包括:若校验字符对应的若干个字符中某一字符通过所述步骤S4进行纠错,则利用校验字符对纠错后的字符进行检错。
5.根据权利要求1所述的一种基于校验规则的OCR识别结果纠错方法,其特征在于,还包括,若识别结果中某一校验字符对应的若干个字符中存在数字类型的无法识别字符,则根据校验字符和所述公式逆推无法识别字符。
6.一种基于校验规则的OCR识别结果纠错设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:
S1、利用OCR算法识别图像中的字符串,得到识别结果;所述字符串包括若干个字段,并预先设置有对应的校验规则;所述校验规则规定字符串各字段中字符的类型;
S2、根据识别结果中字符数量、类别标识符、字符所占行数中至少一者,判断字符串类别,并获取该字符串类别对应的校验规则;所述类别标识符为字符串中预先设置的一个用于标识字符串类别的字段;
S3、根据所述校验规则,对识别结果进行检错:在识别结果中查找字符类型不满足校验规则的字符,记该字符为错误字符;
所述校验规则还规定:字符串中设置有至少一个校验字符;所述校验字符对应字符串中的若干个字符,并由所述若干个字符计算得到;根据所述校验规则,对识别结果进行检错:根据识别结果,计算校验字符;比对计算得到的校验字符和识别结果中的校验字符,若比对结果一致,则该校验字符对应的若干个字符不存在错误字符;否则,该校验字符对应的若干个字符存在错误字符;
所述计算校验字符,以公式表达为:
Xcheck=Sum mod 10
式中:X1,X2,X3,…,Xn为对所述校验字符对应n个字符进行赋值得到的n个数值;Sum表示所述n个数值的加权叠加值,Xcheck为校验字符;
S4、根据校验规则和检错结果,对识别结果进行纠错:预先设置一用于纠错的替换字符集,所述替换字符集包括若干个形状相似字符之间的对应关系;根据替换字符集查找所述错误字符对应的相似字符,若相似字符符合错误字符所在字段的校验规则,则将错误字符替换为该相似字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州符号信息科技有限公司,未经福州符号信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110449444.3/1.html,转载请声明来源钻瓜专利网。