[发明专利]一种表格图像的识别方法及系统在审
| 申请号: | 201811308349.6 | 申请日: | 2018-11-05 |
| 公开(公告)号: | CN109726628A | 公开(公告)日: | 2019-05-07 |
| 发明(设计)人: | 肖冬;鲍忠林;孙海洋;张文睿;杨鹏 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表格图像 单个字符 单元格 表格区域 图像样本 图像 二值化预处理 学习神经网络 获取图像 投影分析 信息录入 准确率 样本 输出 便利 分割 | ||
1.一种表格图像的识别方法,其特征在于,包括:
对表格图像进行二值化预处理,获取图像样本;
将所述图像样本内的表格区域进行定位,并将所述表格区域内的单元格从所述图像样本上进行提取;
通过投影分析法将所述单元格中的单个字符进行分割提取,获取单个字符图像;
基于深度学习神经网络的识别模型对每一所述单元格内的单个字符图像进行识别,获取所述单个字符图像的识别结果,最终输出所述表格图像的内容。
2.根据权利要求1所述的一种表格图像的识别方法,其特征在于,在将所述图像样本内的表格区域进行定位,并将所述表格区域内的单元格从所述图像样本上进行提取时,包括:
提取所述图像样本内的表格线,将提取的所述表格线进行腐蚀膨胀处理,获取所述表格线上的水平线和竖直线的交点;
对所述图像样本内的表格线进行轮廓查找,并通过对查找到的所述轮廓进行判断,确定所述轮廓所占的区域是否为所述表格区域;
若所述轮廓所占的区域为所述表格区域,则从所述表格区域内将含有表格和/或文字的图像进行提取,并结合获取到的所述表格线上的水平线和竖直线的交点,将各个所述单元格从所述图像样本上进行提取。
3.根据权利要求2所述的一种表格图像的识别方法,其特征在于,在提取所述图像样本内的表格线时,将提取的所述表格线进行腐蚀膨胀处理,获取所述表格线上的水平线和竖直线的交点,包括:
对所述图像样本内的水平线和竖直线分别进行提取,获得水平线图和竖直线图;
分别对所述水平线图和竖直线图依次进行腐蚀和膨胀处理后,将所述水平线图和所述竖直线图进行图像相加,获得水平线和竖直线的结合图;
提取所述结合图上的水平线和竖直线的交点,完成对所述表格线上的水平线和竖直线的交点的获取。
4.根据权利要求3所述的一种表格图像的识别方法,其特征在于,在通过对查找到的所述轮廓进行判断,确定所述轮廓所占的区域是否为所述表格区域时,包括:
对所述结合图进行轮廓查找,并根据形状和大小判断查找到的所述轮廓是否为表格;
若所述轮廓所占的区域为所述表格区域,则将所述表格区域逼近成为闭合区域后,将所述闭合区域转化为将所述闭合区域全面覆盖的矩形区域;
结合获取到的所述表格线上的水平线和竖直线的交点,将各个所述单元格从所述图像样本上进行提取,包括:
通过所述结合图内的所述水平线和竖直线的交点,确定每一所述单元格在所述矩形区域的位置,并将每一所述单元格从所述矩形区域上进行提取。
5.根据权利要求1所述的一种表格图像的识别方法,其特征在于,在通过投影分析法将所述单元格中的单个字符进行分割提取,获取单个字符图像时,包括:
将所述图像样本变换为黑底白字的投影图片,并提取所述投影图片内的单元格;
根据提取后的所述单元格内的两个相邻的所述单个字符之间的每一列像素中白色像素的个数、以及每一列中每个白色像素的灰度值,获得所述图像样品的像素的分布直方图的像素分析图;
对所述像素分析图进行分析,找出相邻的两个所述单个字符之间的分割点;
根据所述分割点在所述图像样本上的位置,对相邻的两个所述单个字符进行分割和提取。
6.根据权利要求1所述的一种表格图像的识别方法,其特征在于,还包括:对所述识别模型的建立,其建立方法包括:
采集不同印刷体、以及手写体字体的文字类图片;
将所述文字类图片作为输入数据,将与所述单个字符图像对应的印刷体或手写体字体作为输出数据,经深度学习神经网络训练得到所述识别模型。
7.根据权利要求6所述的一种表格图像的识别方法,其特征在于,在将所述文字类图片作为输入数据时,包括:
将所述文字类图片根据其对应的印刷体或手写体字体进行分类,生成与每一印刷体或手写体字体相对应的字体图片组;
将每一所述字体图片组进行像素统一化处理,使所述字体图片组内的每一所述文字类图片形成具有统一像素的标准图片;
将所述标准图片的灰度值以16进制写入所述深度学习神经网络的训练集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811308349.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种神经网络模型训练及通用接地线的检测方法
- 下一篇:灰尘颗粒密度解析系统





