[发明专利]一种表格文档图像中字符提取方法有效

专利信息
申请号: 201310148624.3 申请日: 2013-04-26
公开(公告)号: CN103258198A 公开(公告)日: 2013-08-21
发明(设计)人: 王俊峰;高琳;姬郁林;李虹 申请(专利权)人: 四川大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/54
代理公司: 成都信博专利代理有限责任公司 51200 代理人: 舒启龙
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 表格 文档 图像 字符 提取 方法
【权利要求书】:

1.一种表格文档图像中字符提取方法,其特征在于包括以下步骤:

步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;

步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;

步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;

步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;

步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;

步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。

2.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。

3.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。

4.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。

5.根据权利要求4所述的一种表格文档图像中字符提取方法,其特征在于:所述线段及其倾斜角度有两个,取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段;所述对相邻线段进行连接是对图像进行行扫描,对处于同一行的线段,计算相邻线段端点之间的距离,如果小于两个线段总长的1/4,则连接这两个线段,再对图像进行列扫描,对处于同一列的线段,按照行扫描的方式进行连接。

6.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤五具体为:首先将单元格框线上像素的灰度值设为背景灰度值以消除框线,从而避免单元格中字符之间发生连接;从单元格中提取出整行字符,建立字符行在垂直方向上的投影直方图;设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸,根据投影直方图,将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310148624.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top