[发明专利]一种表格分析编改加工方法有效
申请号: | 201210338748.3 | 申请日: | 2012-09-14 |
公开(公告)号: | CN102855232A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 张镔;王艳;梁洵;袁仁慧 | 申请(专利权)人: | 同方光盘股份有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24 |
代理公司: | 北京捷诚信通专利事务所(普通合伙) 11221 | 代理人: | 魏殿绅 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 分析 加工 方法 | ||
技术领域
本发明涉及可应用于纸质表格电子化过程中表格数字化加工过程,尤其涉及一种表格分析编改加工方法。
背景技术
在纸质表格电子化的过程中,OCR软件很难准确的直接设别出复杂表格的结构和文字,因此OCR识别前的版面调整和识别后的文字编改工作均耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是:用普通OCR软件进行表格图像版面分析,对分析不准的表格结构进行调整或重画版面,经过识别后再进行一次编改校正,在保证没人4万字/8小时正常编改的速度下,编改的错误率通常也会超过1‰,而表格结构的错误率更加难以控制,通常会在1%以上。
由于表格数据的加工对精度要求极高,往往一字之差谬以千里,现有的数据加工模式远不能满足对精度的要求,而且应对海量数据加工的人工成本过高,因此需要开发一套符合特定生产要求的表格数据加工系统,提供一个自动化高效的数据加工平台辅助人工处理各种文献资料中大量的表格数据,以达到提高效率和质量,降低成本的目的。
发明内容
为解决上述中存在的表格数字化加工过程中人工编改效率低,错误率高的问题与缺陷,本发明提供了一种表格分析编改加工方法,该方法可以极大地提高人工编改的效率,降低成本。所述技术方案如下:
一种表格分析编改加工方法,包括:
步骤10扫描文档、并对扫描后的文档图像进行处理;
步骤20对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;
步骤30将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;
步骤40对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;
步骤50对纵向编改后的字进行横向编改;
步骤60根据表格版面信息和文字纵横向编改后的文字,合成电子表格文件。
本发明提供的技术方案的有益效果是:
对正常的纸质表格文档,编改效率可提高11倍,达到50万字/8小时;同时表格版面层次错误率低于3‰,编改文字错误率降低50%以上,低于0.5‰。
附图说明
图1是表格分析编改加工方法流程图;
图2是基于网络和数据库的表格分析编改加工流程系统图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种表格分析编改加工方法,所述方法包括:
扫描文档、并对扫描后的文档图像进行处理;
对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;
将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;
对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;
对纵向编改后的字进行横向编改;
根据表格版面信息和文字纵横向编改信息,合成电子表格文件。
为提高OCR识别软件识别正确率,对文档统一采用300DPI精度进行扫描,随后对图像进行矫正、去污、去噪等处理。
上述表格版面信息包括:表格版面的单元格位置、语种、行列表头及数据区属性。
上述对扫描后的图像通过表格版面分析算法生成表格版面,检查版面分析结果,纠正错误结果,检查后,对图像缺陷进行必要的修补,保证表格结构分析正确。
上述表格版面分析算法包含以下内容:
表格线调整算法
经过初始行列扫描获得初始表格线存在较多干扰:由于表格图像页眉页脚线及文字粘连及加粗而错识的非表格线;由于图像质量造成的文字断线;由于表格样式规定省略的外围框线或者数据区的表格线等;因此要将这些初始表格线进行整理规则。非表格线剔除:利用页眉页脚线与表格线的位置及行列交叉交叉属性去除页眉页脚线,文字线周围联通区域特征性去除文字线。根据表格线的规则及数据排列特性实现数据区域表格线添加,表格断线处理。
单元格生成算法
运用基于表格知识的单元格生成算法,不只考虑单元格矩形的封闭特性,综合考虑直线包围棉结的大小等特征。单元格生成算法的主要内容:将检索处理后的横向表格线与纵向表格线分别按从上到下、从左到右排序。
嵌套单元格处理
针对统计年鉴中出现较多的嵌套表格,运用置虚边的方式将包含单元格分裂为两个具有虚边特征的单元格,在表格还原时利用虚边重构为包含特征的单元格。
单元格虚边处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方光盘股份有限公司,未经同方光盘股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210338748.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体元件及其制作方法
- 下一篇:钟罩式退火炉水雾风冷工艺及装置