[发明专利]一种端到端的表格检测和结构识别方法及系统在审
申请号: | 202110396302.5 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113435240A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 周勃宇;王勇;朱军民 | 申请(专利权)人: | 北京易道博识科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/46;G06K9/62;G06T5/30;G06T3/40;G06N3/04;G06N3/08 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 表格 检测 结构 识别 方法 系统 | ||
本发明公开了一种端到端的表格检测和结构识别方法及系统,涉及计算机视觉领域。该方法包括:对原始图像进行垂直方向拉伸,并进行长宽比不变的尺寸归一化以及边界补0,形成预处理图像;以编码器‑解码器模型为主体结构,确定所述预处理图像中的表格区域,并分类为有线表格图像和无线表格图像;基于所确定的表格区域,从预处理图像中分离出校正后的、仅包含表格区域的表格区域图像;针对所述表格区域图像,根据分类为有线表格图像和无线表格图像分别采用不同方法进行表格结构识别。本发明对不同类别的表格采用不同的结构识别方法,充分结合卷积神经网络图像分割算法、图卷积神经网络算法和传统规则分析方法的优势来提升算法的鲁棒性和通用性。
技术领域
本发明涉及计算机视觉领域,尤其是一种端到端的表格检测和结构识别方法及系统。
背景技术
现实中,表格作为一种关键信息的承载方式广泛存在地存在于PDF、扫描文档、拍照图片等对象中。表格结构识别是很多下游任务的重要前提,如文档分析、信息抽取和可视化。自动表格识别方法通常包含表格检测和表格结构识别两大步骤,其中,表格检测的目的是定位出图片中的表格区域,表格识别则是对于每个区域内的表格内部结构进行识别,以获取最终的结构化数据。人工提取表格内容的方式将耗费大量的人力和时间。相比之下,自动化的方式将会极大的提高工作效率。
现实中的表格存在大量不同的风格、版式及内部结构,因此想要采用统一的识别方法通常是十分困难的。传统的表格识别方法通常依赖于手工设计的特征(如行列分隔线、空白区域、单元格数据类型等)以及启发式的规则。表格检测通常采用一种自底向上的策略,如利用表格中显式的文本对齐关系定位出表格中的行列位置,然后再将所有的行列信息融合在一起计算出表格区域。表格样式的多变性和内部结构的复杂性会给行列的检测带来很大的困难,进而影响整体的检测效果。表格结构识别则通常依赖于表格中的显式分隔线,以及分隔线与文本实例的相对位置关系。这种方法在有线表格还可以获得较好的性能,但是却无法应对分隔线部分缺失或完全缺失的无线表格。
近些年,深度学习技术推动了计算机视觉的快速发展,在表格识别领域,也得到了较多的应用。概括的讲,相比于传统的方法,深度学习表格识别方法通常具备两大优势。第一,深度学习方法以图像作为输入,原则上可以应用于任何可转换为图像的识别对象,如PDF、扫描文档等。因此,具有统一化方法的优势;第二,得益于强大的自动特征编码能力和统一的端到端可训练方法,相比于手工设计特征和启发式规则为主的传统方法,深度学习具有突出的性能表现。
因此,提供一种基于深度学习各项优势的从表格检测到表格结构识别的一体化流程具有良好应用前景。
发明内容
为了实现以上目的,本发明提出了一种融合表格检测于一体的结构识别方法,可以高效地从图像中抽取出表格内部结构信息。此方案所使用的图像分割技术不仅可以通过像素级别的预测方式来准确地计算出表格的边缘,还可以将表格分类为有线表格和无线表格。此方案在后续的步骤中对不同类别的表格采用不同的结构识别方法,充分结合卷积神经网络图像分割算法、图卷积神经网络算法和传统规则分析方法的优势来提升算法的鲁棒性和通用性。
具体地讲,该方法首先利用卷积神经网络实现表格区域的检测。对于检测出的有线表格,采用卷积神经网络完成表格线的检测,并结合后处理规则完成表格结构的识别;对于无线表格,则采用图卷积神经网络实现单元格、行和列关系的预测,进而完成结构的识别。
根据本发明的第一方面,提供一种端到端的表格检测和结构识别方法,输入的原始图像中包含有表格,其特征在于,所述方法包括以下步骤:
步骤1:图像预处理步骤,对原始图像进行垂直方向拉伸,并进行长宽比不变的尺寸归一化以及边界补0,形成预处理图像;
步骤2:表格区域预测步骤,以编码器-解码器(Encoder-Decoder)模型为主体结构,确定所述预处理图像中的表格区域,并分类为有线表格图像和无线表格图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110396302.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流沙地层立体式降水方法
- 下一篇:一种Al-Mg-Si铝合金及其制备方法