[发明专利]表格检测方法和装置有效

专利信息
申请号: 202110195238.4 申请日: 2021-02-22
公开(公告)号: CN112560820B 公开(公告)日: 2021-06-01
发明(设计)人: 孔令军 申请(专利权)人: 金陵科技学院
主分类号: G06K9/00 分类号: G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司: 江苏圣典律师事务所 32237 代理人: 张芳
地址: 211112 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 表格 检测 方法 装置
【说明书】:

发明公开一种表格检测方法和装置,其中检测方法包括获取包含表格的图片;利用交叉点峰值图模型对表格进行预测,获取表格中交叉点的峰值图;将交叉点的峰值图转换成交叉点坐标;按照原表格结构连接各交叉点,得到完整的表格。本发明使用深度学习的方法进行检测表格线框检测,使得算法在各种环境条件下具有鲁棒性,并降低表格中倾斜角度、部分缺损、图片失真等因素对正确率的影响;使用像素级别算法对表格上横线竖线进行检测,能够精确的识别出表格并分类,并且能够处理线段不连续或者有污渍、模糊、印章等情况;交叉点峰值图模型使用了不深的网络结构维持良好的性能,维持了模型的实时性。

技术领域

本发明属于图像处理技术领域,特别是一种表格检测方法和装置。

背景技术

大多数人日常办公处理的文件,无非就是表格和文档,其中表格的重要性毋庸置疑。在各行各业的桌面办公场景中,经常以表格的形式呈现。可以说,表格数据作为财务数据中的关键信息,在财务数据的处理过程中越来越受到财务人员的重视。随着带摄像头的移动设备的普及,越来越多的客户通过这些设备拍照上传文件图片。因此从文件图片中提取有效信息也成为了一项基本的任务。

尽管表提取是各种领域中的常见任务,但手动提取表信息通常是一个冗长而耗时的过程。因此,我们需要自动的表提取方法来避免手动操作。但是,对于相对复杂的财务表结构,现有的方法仍难以准确地恢复,这使得传统的特征工程方法通常很难解码表结构。这些方法通常依赖于可视化特性,如划线、不同列之间的间距、表格单元格中的数据类型、它们与重叠邻近的关系或颜色编码的单元格块。它们在特定布局的表或业务案例中表现得相当好,但无法跨多个域扩展。表结构的变化,以及用于可视地分离表格组件的图形元素的变化,使得从这些图像中提取图像成为一个非常具有挑战性的问题。

随着深度学习发展,表格检测结构化已经进行了广泛的研究。最开始的表格检测结构化技术使用了传统的算法进行识别,对于环境、拍摄角度以及光照情况等不太具有鲁棒性,并且表格本身的污染缺损也会影响正确率。

在实际环境的表格检测中,如果直接对表格进行文字定位以及识别,虽然表格能够直接识别出结果,但两个不同小框中的文字容易被识别成一列,而且传统的表格线段检测容易受到光照强度(黑暗、强光、局部失真)、污渍以及印章等的影响;表格模糊、打印出现缺损等依旧是传统方法难以解决的点;因为各种问题造成的表格上的线段残缺将使得传统方法完全失效。

发明内容

为了解决现有技术的上述问题,本发明提供一种表格检测方法和装置,使用卷积网络识别表格中的关键点,然后利用表格的固定格式以及检测出的表格关键点对表格进行结构化。

本发明第一方面,提供一种表格检测方法,包括以下步骤,

获取包含表格的图片;利用交叉点峰值图模型对所述表格进行预测,获取所述表格中交叉点的峰值图;将所述交叉点的峰值图转换成交叉点坐标;按照原表格结构连接各交叉点,得到完整的表格。

所述交叉点峰值图模型的构造过程为,

人工标记样本表格中的所有交叉点的坐标;将所述交叉点通过高斯分布转换为峰值图;利用卷积网络对多个样本表格进行训练,得到所述交叉点峰值图模型。

将所述交叉点通过高斯分布转换为峰值图后,图中任意点p的峰值概率符合以下公式

其中,j表示交叉点,p代表峰值图中的某个点,lk代表图片里对p点影响最大的交叉点,Dist(p,lk)表示p点与lk点之间的距离;σ表示控制峰值概率的衰减速度。

进一步,所述峰值图中的任意点p受到同一表格中多个交叉点影响,选取受影响最大的交叉点计算其峰值概率。

进一步,所述利用交叉点峰值图模型对所述表格进行预测,获取所述表格中交叉点的峰值图具体为,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110195238.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top