[发明专利]一种表格文档图像中字符提取方法有效
申请号: | 201310148624.3 | 申请日: | 2013-04-26 |
公开(公告)号: | CN103258198A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 王俊峰;高琳;姬郁林;李虹 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/54 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 舒启龙 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 文档 图像 字符 提取 方法 | ||
1.一种表格文档图像中字符提取方法,其特征在于包括以下步骤:
步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;
步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;
步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;
步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;
步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;
步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
2.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。
3.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。
4.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。
5.根据权利要求4所述的一种表格文档图像中字符提取方法,其特征在于:所述线段及其倾斜角度有两个,取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段;所述对相邻线段进行连接是对图像进行行扫描,对处于同一行的线段,计算相邻线段端点之间的距离,如果小于两个线段总长的1/4,则连接这两个线段,再对图像进行列扫描,对处于同一列的线段,按照行扫描的方式进行连接。
6.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤五具体为:首先将单元格框线上像素的灰度值设为背景灰度值以消除框线,从而避免单元格中字符之间发生连接;从单元格中提取出整行字符,建立字符行在垂直方向上的投影直方图;设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸,根据投影直方图,将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310148624.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双向电测方法及系统
- 下一篇:一种荷载试验智能控制水箱加载方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序