[发明专利]一种电子卷宗表格式OCR识别的方法在审
| 申请号: | 202210571646.X | 申请日: | 2022-05-24 |
| 公开(公告)号: | CN114782975A | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 葛季栋;朱宇煊;朱润之;骆斌 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06N3/04;G06N3/08;G06V10/22;G06V10/82 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210023 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 电子 卷宗 表格 ocr 识别 方法 | ||
1.一种电子卷宗表格式OCR识别的方法,其特征在于包含以下步骤:
步骤(1)卷宗图像预处理;
步骤(2)表格线检测与提取;
步骤(3)单元格定位;
步骤(4)在Word上重绘表格;
步骤(5)文字内容识别与回填。
2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(1)中卷宗图像预处理,具体子步骤包括:
步骤(1.1)使用加权平均数灰度化的方式将图像进行灰度化,得到去除了彩色分量的灰度图像;
步骤(1.2)使用Sauvola算法对灰度图像进行二值化,得到呈现非黑即白特征的二值图像;
步骤(1.3)对于图像主体倾斜的图像,使用OpenCV求取其主体邻接矩阵,计算邻接矩阵相对图像的倾斜角,旋转图像主体。
3.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(2)中表格线检测与提取,具体子步骤包括:
步骤(2.1)对二值图像采用Canny算法,进行边缘检测,将边缘凸显出来;
步骤(2.2)取长为p,高为1的横向形态核区间,对步骤(21)中的图像进行先腐蚀后膨胀的形态学变换操作,得到横线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;
步骤(2.3)取高为1,长为p的纵向形态核区间,对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作,得到竖线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;
步骤(2.4)将步骤(2.2)得到的横线图和步骤(2.3)得到的竖线图进行相交,得到线图。
4.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(3)中单元格定位,,具体子步骤包括:
步骤(3.1)提取步骤(2)中线图的交点,得到交点图;
步骤(3.2)使用阈值法收缩交点图中的点团,使每个交点由单个像素代表,得到交点像素的坐标序列,根据其横纵坐标,按照横竖线排列;
步骤(3.3)遍历交点的坐标序列,下一条横线和下一条竖线上存在邻接点的交点视为单元格的顶点,根据邻接点确定对角点。
5.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(4)中在Word上重绘表格。具体子步骤包括:
步骤(4.1)根据左上角单元格顶点坐标和右下角单元格对角点坐标计算整个表格长宽;
步骤(4.2)寻找最短的单元格长宽,设定为基础长宽值;
步骤(4.3)根据表格长宽和基础长宽,使用python-docx在Word文件上绘制标准表格;
步骤(4.4)根据单元格坐标计算单元格长宽,以及单元格向左和向下的合并单元格的数目,从左上角开始合并单元格。
6.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(5)中根据步骤(3)中得到的单元格坐标信息,切分单元格识别文字内容,并回填入步骤(4)绘制的表格。具体子步骤包括:
步骤(5.1)训练Tesseract引擎;
步骤(5.2)根据单元格坐标,截取图像中对应单元格内的图像;
步骤(5.3)使用Tesseract引擎识别步骤(5.1)中截取的图像,得到单元格内文字内容;
步骤(5.4)将识别的内容根据单元格位置信息,回填入步骤(4)绘制的表格中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210571646.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分析化学用搅拌装置
- 下一篇:一种新能源电动智能充电桩





