[发明专利]表格识别方法、装置、电子设备、存储介质有效
| 申请号: | 202010522622.6 | 申请日: | 2020-06-10 |
| 公开(公告)号: | CN111428700B | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 梁宇舒 | 申请(专利权)人: | 上海交通大学苏州人工智能研究院 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 215000 江苏省苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表格 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种表格识别方法、装置、电子设备、存储介质,该方法包括:提取待识别表格包含的交点,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量;根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。根据交点数量确定目标网格在目标方向上是否存在线段,进而准确的识别出待识别表格中先验交点关联的表格线段,提高表格识别鲁棒性。
技术领域
本申请实施例涉及图像识别技术,尤其涉及一种表格识别方法、装置、电子设备、存储介质。
背景技术
随着时代的发展,图像识别的需求越来越普遍。光学字符识别(OpticalCharacter Recognition,OCR)技术被应用于识别图像中的文字。OCR技术检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
OCR技术还被应用于识别表格图像,目前的OCR技术采用对表格全文进行识别的方式,但是当表格出现倾斜等形变时,无法准确识别出表格,进而无法准确识别表格中不同区域中的数据,表格识别鲁棒性差。
发明内容
本申请提供一种表格识别方法、装置、电子设备、存储介质,以提高表格识别鲁棒性。
第一方面,本申请实施例提供了一种表格识别方法,包括:
提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
第二方面,本申请实施例还提供一种表格识别装置,包括:
交点提取模块,用于提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
网格划分模块,用于根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
目标网格交点统计模块,用于查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
目标表格生成模块,用于根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如本申请实施例所示的表格识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所示的表格识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学苏州人工智能研究院,未经上海交通大学苏州人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522622.6/2.html,转载请声明来源钻瓜专利网。





