[发明专利]一种简捷有效的残缺表格识别及跨页拼接方法在审
申请号: | 202010380528.1 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111626145A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 吕志刚;李亮亮;王鹏;高武奇;岳鑫;李晓艳;郭翔宇;李超 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/46;G06K9/32;G06N3/04 |
代理公司: | 西安新思维专利商标事务所有限公司 61114 | 代理人: | 黄秦芳 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 简捷 有效 残缺 表格 识别 拼接 方法 | ||
本发明公开了一种简捷有效的残缺表格识别及跨页拼接方法,通过直线提取检测表格矫正,采用提出的残缺表格定位识别算法,得到残缺表格的准确位置,出现上下页残缺时,对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正;然后使用Harris进行角点检测,预框选出感兴趣区域,判断预框选区域是否存在直线得到准确的表格区域;其次,对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;最后,将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。
技术领域
本发明涉及表格识别及深度学习领域,特别是一种简捷有效的残缺表格识别及跨页拼接方法。
背景技术
随着图像处理技术和光学字符识别(OCR)技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。
表格文档作为业务数据的重要载体,研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格目前大多采用人工录入,存在工作量大、繁琐和准确率低等问题;同时对于特殊残缺不完整表格识别效果不佳、跨页表格不能完整拼接等问题。
发明内容
本发明提供一种简捷有效的残缺表格识别及跨页拼接方法,以解决现有方法对不完整表格识别准确率低、跨页表格不能完整拼接的问题。
为了达到本发明的目的,本发明提出的方案如下:
一种简捷有效的残缺表格识别及跨页拼接方法,包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;
步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;
步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;
步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。
与现有技术相比,本发明的有益效果是:
1)图像预处理阶段中,现有的方案是直接进行直线检测,再进行处理,而本发明是先进行预直线检测,再进行准确的直线检测,这样就有效提高了直线坐标的提取准确性;
2)通过形态学直线提取检测,并进行投影法进行直线重绘增强;采用Harris角点检测结合形态学投影得到的直线坐标进行文本区域与表格区域的检测分割;根据Harris确定的感兴趣区域上下界限值、第一条直线、最后一条直线之间的对应关系及拼接规则进行跨页拼接;采用形态学方法检测表格中横线与竖线的交点进而实现单元格的分割;采用投影法进行处理分割后的单元格便于CRNN更好的OCR识别。该方法可以有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。
3)本方法提出的残缺表格识别及跨页拼接方法,将特殊残缺表格识别的问题转化为区域划分及水平直线检测的问题,将复杂问题分解为多个简单问题,极大的简化了复杂表格不能准确识别分割的问题,为大量库存的纸质版特殊文本表格数字化提供了理论依据,为多种复杂表格的数字化提供了可行方案。
附图说明
图1为本发明方法实现框图;
图2为本发明整体工作流程图;
图3为本发明形态学法水平直线检测结果与投影法增强结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010380528.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板及显示装置
- 下一篇:一种能在PCB上快速抓取元器件Group的方法