[发明专利]一种表格检测方法和装置有效
申请号: | 201811513646.4 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109858325B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 吴爱红;胡雨隆;殷兵;胡金水 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T7/00;G06T7/187 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 检测 方法 装置 | ||
本发明提供了一种表格检测方法和装置,所述方法包括:获取待测图像;提取所述待测图像中的表格线条元素,得到预处理表格线条图像;基于预设的检测核,提取所述预处理表格线条图像中的交叉点;基于所述交叉点,重构表格线条,得到目标表格线条图像。所述装置包括:待测图像获取模块、预处理表格线条图像提取模块、交叉点提取模块、目标表格线条图像获取模块。本发明实施例通过检测表格中的交叉点,并基于所述交叉点对表格线条进行重构,从而实现了表格的检测以及提取。基于交叉点检测表格,可以有效避免表格中非表格线段的干扰,并通过交叉点区分了表格中的短线段和手写字符中的笔画,避免了表格中文字的干扰,表格检测的准确性高。
技术领域
本发明涉及图像处理领域,特别是涉及一种表格检测方法和装置。
背景技术
随着近年来AI技术的不断升温,图像理解是机器视觉的核心技术之一,其中,文档图像中的表格不仅是文档图像中核心要素,更是一种可视化的交流模式。表格结构简单,分隔明确,可保证信息可读性,易于用户快速扫描浏览并获取所需;数据经过归纳整理和合理布局后,更易于用户感知分辨其中的差异与变化、关联与区别,并进行对比分析;交互层面,用户可以对数据信息进行排序、搜索、筛选、以及相关业务处理等复杂操作。在科学研究、数据分析、信息登记等方面表格发挥着重要作用。因此,表格的检测是图像理解中不可缺乏的技术之一。
现有技术中,在具有多个元素的图像中提取表格的主要方法为:先检测表格中的直线,然后利用直线计算交叉点,最后利用直线和交叉点绘制出表格。对于复杂表格而言,直线是否正确检测并提取直接影响着最终表格的回复质量。现有较成熟的直线检测方案包括以下几种:一种为基于霍夫变换的直线检测,该方法对线段的连通性没有要求,有利于检测虚线和断裂的直线,但由于难以确定直线的起点和重点,运算量过大,导致它在具体的工程实践中的应用受到了限制;一种为应用较广的矢量化算法,该方法直接对光栅图像的各个像素进行处理,导致存储量大,而且因为不能利用像素间的位置关系,很不方便;一种为基于矢量化方法的改进,例如选择一些容易提取,大小合适,反映待检目标的最本质特性的矢量单元,然后采用合并和滤除的方式,得到最终的直线,如单连通链的表格检测技术。
然而,现有技术都是从直线检测出发,对检测的直线进行修补,使其重新构成网格,得到最终的表格信息,其仍然会受到手写字、非表格直线等影响,导致对短小直线的提取稳定性地,从而出现漏检、多检的问题,使表格无法正确识别。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种表格检测方法和装置。
一种表格检测方法,包括:
获取待测图像;
提取所述待测图像中的表格线条元素,得到预处理表格线条图像;
基于预设的检测核,提取所述预处理表格线条图像中的交叉点;
基于所述交叉点,重构表格线条,得到目标表格线条图像。
优选地,所述基于预设的检测核,提取所述预处理表格线条图像中的交叉点的步骤具体包括:
将预设的检测核对所述预处理表格线条图像进行卷积,得到卷积响应图;
对所述卷积响应图进行自适应二值化,得到交叉点响应图像;
在所述交叉点响应图像中定位出交叉点。
优选地,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:
对每一个所述交叉点,确定以所述交叉点为基准的至少一个预设方向上是否存在其他交叉点;
当在预设方向上存在其他交叉点时,确定所述预设方向为所述交叉点的连通方向;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811513646.4/2.html,转载请声明来源钻瓜专利网。