[发明专利]一种从图像中抽取表格的方法在审
| 申请号: | 202010318730.1 | 申请日: | 2020-04-21 |
| 公开(公告)号: | CN111539312A | 公开(公告)日: | 2020-08-14 |
| 发明(设计)人: | 罗嘉杰 | 申请(专利权)人: | 罗嘉杰 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 苏州市拉沃智佳知识产权代理有限公司 32455 | 代理人: | 付长萍 |
| 地址: | 中国澳门水坑尾*** | 国省代码: | 澳门;82 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 图像 抽取 表格 方法 | ||
本发明公开了一种从图像中抽取表格的方法,包括以下步骤:S1、图像转化;S2、在垂直及水平方向进行图像像素强度梯度计算,并进行边缘侦测;S3、增强所取图像的边缘像素,进行图像二值化处理;S4、在垂直、水平方向利用不同的structural element进行型态学中的开启,找出图像中符合长条形状的物件;S5、分别在水平及垂直方向进行步骤S4的操作,将垂直和水平方向的结果重合以作为输出;S6、找出封闭方形的边框;S7、抽出以及标记图像中的表格的位置和内容;S8、进行表格边框修正,得到图像所有表格的完整资讯。本发明的方法可以自动完成图片中图像的切割和表格的抽取,在OCR识别等的图像文字识别任务中可以提升改善前置作业效率,提升后续作业的确准度。
技术领域
本发明涉及图像处理方法技术领域,具体涉及一种从图像中抽取表格的方法。
背景技术
国内对汉字识别的OCR技术在近年都有着良好的研究成果,一般通用识别都能够做到95%以上的精准度,但对于图片的版面分析所使用的通用模型并没有一个很好的表现及通用性,大多数都是针对性的开发及定制的。国内对汉字识别的OCR技术在近年都有着良好的研究成果,一般通用识别都能够做到95%以上的精准度,但对于图片的版面分析所使用的通用模型并没有一个很好的表现及通用性,大多数都是针对性的开发及定制的。
如果需要提升汉字识别的精确度和灵活性,版面分析是其中非常重要的一环。特别是对于一些财务报表,商业文件及设计工图等,都是文本和表格混杂的,如何准确地提取相应的的表格出来使用不同的模型去计算是一项必须的工作。
一般表格并没有一个绝对的格式,行列没有一个固定的数量,方向也不是固定的,表格的边框所使用的样式也不是绝对的,导致提取表格的复杂性及难度提高。
发明内容
针对上述存在的技术不足,本发明的目的是提供一种从图像中抽取表格的方法,旨在解决背景技术中的问题。
为解决上述技术问题,本发明采用如下技术方案:
本发明提供一种从图像中抽取表格的方法,包括以下步骤:
S1、将原始图像有彩色图像转化为灰阶图像;
S2、利用卷积方法,在垂直及水平方向进行图像像素强度梯度计算,对已处理的灰阶图像进行边缘侦测;
S3、使用图像形态学中的膨胀增强所取图像的边缘像素,根据特定的阈值进行图像二值化处理;
S4、对已处理的图像分别在垂直、水平方向利用不同的structuralelement进行型态学中的开启;
S5、将垂直和水平方向的结果重合以作为输出;
S6、通过拓扑学结构的分析,针对步骤S5中得出的边框所占的面积大小进行二次判断,决定是否保留为表格,找出封闭方形的边框,即表格的完整边框;
S7、再根据步骤S6得出的结果,抽出以及标记图片中的表格的位置和内容,即可从图片中抽取出表格;
S8、对表格的轮廓特征进行表格边框修正,得到图像所有表格的完整资讯。
优选地,步骤S2具体为:首先利用5x5的高斯滤波器进化卷积进算以达到降噪效果,然后使用3x3的内核进行逐步的强度计算;梯度的计算分为水平以及垂直方向的差分方程式,其中水平方向的方程式为:
Gx(i,j)=Ii+1,j-1-Ii-1,i-j+2Ii+1,j-2Ii-1,j+Ii+1,j+1-Ii-1,j+1
垂直方向的方程式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗嘉杰,未经罗嘉杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010318730.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





