[发明专利]一种表格文档图像中字符提取方法有效

专利信息
申请号: 201310148624.3 申请日: 2013-04-26
公开(公告)号: CN103258198A 公开(公告)日: 2013-08-21
发明(设计)人: 王俊峰;高琳;姬郁林;李虹 申请(专利权)人: 四川大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/54
代理公司: 成都信博专利代理有限责任公司 51200 代理人: 舒启龙
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 表格 文档 图像 字符 提取 方法
【说明书】:

技术领域

发明涉及图像处理、计算机视觉技术领域,具体涉及一种表格文档图像中字符提取方法。

背景技术

表格是一种常见的信息表示形式,广域应用于人们的日常生活和工作中。目前大部分表格文档的载体还是纸质文档,纸质文档的优点是保密性好,但难以进行信息的管理与分析,随着信息技术的发展,利用计算机对大量的纸质文档信息进行数字化处理是现代社会发展的必然趋势。

通过拍摄或扫描包含表格数据的图像,利用数字图像处理技术提取识别出表格中的信息内容,是国内外对表格文档处理的主要研究方向。表格识别系统通常包括图像预处理,字符提取,OCR字符识别等部分,其中对表格中的字符进行提取,是表格文档识别中最关键的步骤之一。表格字符提取可采用的方法主要有两类,一类方法是结合表格的结构信息进行定位提取,通过检测出表格图像中的多个定位特征,定位出整个表格在图像中的位置,然后根据表格的结构信息推算出每个表格单元格的位置,进而从单元格中提取出字符。这种方法依赖表格结构先验信息,因此缺乏通用性和灵活性。另一类方法无需先验信息,先通过边缘与直线检测提取出表格框线,然后定位单元格,在单元格中通过字符切分提取出每个字符。

对于准确提取出表格字符,其难点在于字符笔画与表格线通常会发生重叠,使得提取出的字符中包含多余的笔画,极大影响了后续的OCR识别效果。一般采用的方法是将字符中的表格线去除,但是去除表格线的同时又会造成字符的笔画断裂或缺失,因此难以取得较好的效果。针对这个问题,通常的解决方法是对表格线与笔画像素进行区分,在去除表格线的同时保留字符笔画中的像素,但由于表格线与字符的灰度特征相近,因此区分往往比较困难。还有一些方法先去除字符中的表格线,然后根据字符剩余笔画的结构特征,对缺失笔画进行恢复,这种方法仅对于笔画较为单一,并且笔画缺失量较少的情况有效。

发明内容

本发明的目的在于提供一种表格文档图像中字符提取方法,解决目前对表格中字符的提取方式通用性低、不灵活,识别度不高的问题。

一种表格文档图像中字符提取方法,包括以下步骤:

步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;

步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;

步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;

步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;

步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;

步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。

更进一步的技术方案是,所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。

更进一步的技术方案是,所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。

更进一步的技术方案是,所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310148624.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top