[发明专利]一种高准确率的表格OCR识别方法及系统在审
申请号: | 202111308402.4 | 申请日: | 2021-11-05 |
公开(公告)号: | CN113901950A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 张绍君 | 申请(专利权)人: | 上海派拉软件股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T5/00;G06T5/30;G06T7/62 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 王法男 |
地址: | 200120 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 准确率 表格 ocr 识别 方法 系统 | ||
1.一种高准确率的表格OCR识别方法,其特征在于,所述方法包括:
步骤S100:获取待识别图片,并将所述待识别图片转换为待处理灰度图;
步骤S200:对所述待处理灰度图做去噪及克隆处理,并生成水平矩阵和垂直矩阵;
步骤S300:根据所述水平矩阵和所述垂直矩阵生成交点矩阵;
步骤S400:获取所述交点矩阵中的矩形轮廓,并对所述矩形轮廓进行筛选,获取合法矩形轮廓;
步骤S500:根据所述合法矩形轮廓,从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片,并对各所述矩形小图片进行OCR识别,识别后获取识别后数据;
步骤S600:将所述识别后数据转换为JSON格式数据;或,将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放。
2.根据权利要求1所述的高准确率的表格OCR识别方法,其特征在于,步骤S400:获取所述交点矩阵中的矩形轮廓,并对所述矩形轮廓进行筛选,获取合法矩形轮廓,具体包括:
步骤S410:在所述交点矩阵中查找以获取矩形轮廓;
步骤S420:计算所有的所述矩形轮廓的轮廓面积,每个轮廓面积均包括面积大小和轮廓点数;
步骤S430:基于所述面积大小和所述轮廓点数,按照预设的第一筛选规则对所述矩形轮廓进行筛选,筛选后获取合法矩形轮廓。
3.根据权利要求1所述的高准确率的表格OCR识别方法,其特征在于,步骤S300:根据所述水平矩阵和所述垂直矩阵生成交点矩阵;具体包括:
步骤S310:对水平矩阵进行腐蚀和膨胀操作,生成去噪后水平矩阵;
步骤S320:对垂直矩阵进行腐蚀和膨胀操作,生成去噪后垂直矩阵;
步骤S330:根据所述去噪后水平矩阵和所述去噪后垂直矩阵生成交点矩阵。
4.根据权利要求1所述的高准确率的表格OCR识别方法,其特征在于,步骤S200:对所述待处理灰度图做去噪及克隆处理,并生成水平矩阵和垂直矩阵,具体包括:
步骤S210:获取所述待处理灰度图的矩形结构,并对所述待处理灰度图做腐蚀操作,并获取腐蚀后灰度图;
步骤S220:对所述腐蚀后灰度图进行自适应阈值化操作;
步骤S230:克隆两个自适应阈值操作后的结构,一个作为水平矩阵,另一个作为垂直矩阵。
5.根据权利要求1-4任一项所述的高准确率的表格OCR识别方法,其特征在于,步骤S100:获取待识别图片,并将所述待识别图片转换为待处理灰度图,具体包括:
步骤S110:加载待识别图片到内存中;
步骤S120:在内存中的待识别图片转换为待处理灰度图。
6.一种高准确率的表格OCR识别系统,其特征在于,所述系统包括:
图片识别模块,用于获取待识别图片,并将所述待识别图片转换为待处理灰度图;
克隆处理模块,用于对所述待处理灰度图做去噪及克隆处理,并生成水平矩阵和垂直矩阵;
交点矩阵模块,用于根据所述水平矩阵和所述垂直矩阵生成交点矩阵;
矩形轮廓模块,用于获取所述交点矩阵中的矩形轮廓,并对所述矩形轮廓进行筛选,获取合法矩形轮廓;
合法矩形模块,用于根据所述合法矩形轮廓,从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片,并对各所述矩形小图片进行OCR识别,识别后获取识别后数据;
数据识别模块,用于将所述识别后数据转换为JSON格式数据;或,将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放。
7.根据权利要求6所述的高准确率的表格OCR识别系统,其特征在于,所述矩形轮廓模块还用于:在所述交点矩阵中查找以获取矩形轮廓;
计算所有的所述矩形轮廓的轮廓面积,每个轮廓面积均包括面积大小和轮廓点数;
基于所述面积大小和所述轮廓点数,按照预设的第一筛选规则对所述矩形轮廓进行筛选,筛选后获取合法矩形轮廓。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海派拉软件股份有限公司,未经上海派拉软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111308402.4/1.html,转载请声明来源钻瓜专利网。