[发明专利]光学字符识别支持系统在审
申请号: | 202010329591.2 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111860513A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 上条浩一;清水晶;酒井大;石井裕太 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N20/00;G06F40/232;G06F40/242;G06F40/166 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 光学 字符 识别 支持系统 | ||
1.一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法,包括:
接收至少一个图像;
从所述至少一个图像中提取所有垂直线;
在字符区域处添加垂直线;
由处理器设备从所述至少一个图像中提取所有水平线;
创建从所述至少一个图像中去除所有所述垂直线和所述水平线的无线条图像;
由所述处理器设备基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界;以及
在所述无线条图像的字符之间的空白空间中添加垂直辅助线。
2.根据权利要求1所述的方法,还包括:
添加水平辅助线。
3.根据权利要求1所述的方法,还包括:
将所述至少一个图像分成块;
确定所述垂直辅助线或所述水平辅助线是否覆写所述块;
如果所述垂直辅助线或所述水平辅助线覆写所述块,则跳过添加所述垂直辅助线或所述水平辅助线,以及
移位所述垂直辅助线和所述水平辅助线中的至少一者的位置,以使得所述垂直辅助线和所述水平辅助线中的所述至少一者不被覆写。
4.根据权利要求1所述的方法,还包括:
接收至少一个图像;
基于添加垂直辅助线,确定所述至少一个图像的至少一个变型;
对所述至少一个图像和所述至少一个图像的所述至少一个变型执行OCR;以及
确定所述至少一个图像和所述至少一个图像的所述至少一个变型的最高OCR率。
5.根据权利要求1所述的方法,还包括:
通过应用词法分析,从所述至少一个图像中去除噪声。
6.根据权利要求1所述的方法,还包括:
通过将两个单词转换成图像来测量所述两个单词之间的相似度;以及
叠加所述图像。
7.根据权利要求6所述的方法,还包括:
在叠加时考虑所述图像的深度。
8.一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法,包括:
接收OCR输出的至少一个乱码单词;
在词法上分析所述至少一个乱码单词之后去除噪声;以及
基于频繁编辑操作,用正确字符替换所述至少一个乱码单词的乱码字符;
确定所述至少一个乱码单词与多个候选正确单词中的每一者之间的距离;以及
使用基于所述距离的评分来选择所述多个候选正确单词中的一者作为正确单词。
9.根据权利要求8所述的方法,其中,确定所述至少一个乱码单词与多个候选正确单词中的每一者之间的距离进一步包括:
通过测量两个单词的编辑距离来测量所述两个单词之间的相似度。
10.根据权利要求8所述的方法,其中,确定所述至少一个乱码单词与多个候选正确单词中的每一者之间的距离进一步包括:
通过测量两个单词的编辑距离来测量所述两个单词之间的相似度。
11.根据权利要求8所述的方法,还包括:
通过将两个单词转换成图像来测量所述两个单词之间的相似度;以及
叠加所述图像。
12.根据权利要求8所述的方法,还包括:
基于机器学习来确定用于至少两个后处理准确度评估器的权重。
13.根据权利要求8所述的方法,还包括:
基于预处理过程、OCR过程、以及后处理过程的至少一个结果来选择预处理过程。
14.根据权利要求8所述的方法,还包括:
确定以下中的至少一者:候选正确单词已被使用的频率,乱码单词和候选正确单词中相同字母的数量,相同字符的数量,以及候选正确单词先前被使用的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010329591.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:机器人可扩展性基础设施
- 下一篇:部件安装装置以及间距自动检测方法