[发明专利]一种表格图像的识别方法及系统在审
| 申请号: | 201811308349.6 | 申请日: | 2018-11-05 |
| 公开(公告)号: | CN109726628A | 公开(公告)日: | 2019-05-07 |
| 发明(设计)人: | 肖冬;鲍忠林;孙海洋;张文睿;杨鹏 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表格图像 单个字符 单元格 表格区域 图像样本 图像 二值化预处理 学习神经网络 获取图像 投影分析 信息录入 准确率 样本 输出 便利 分割 | ||
本发明公开了一种表格图像的识别方法及系统,其中,方法包括:对表格图像进行二值化预处理,获取图像样本;将所述图像样本内的表格区域进行定位,并将所述表格区域内的单元格从所述图像样本上进行提取;通过投影分析法将所述单元格中的单个字符进行分割提取,获取单个字符图像;基于深度学习神经网络的识别模型对每一所述单元格内的单个字符图像进行识别,获取所述单个字符图像的识别结果,最终输出所述表格图像的内容。本发明具有识别处理速度快、准确率高的优点,给现从事信息录入的公司带来很大的便利和效益。
技术领域
本发明属于图像识别技术领域,涉及一种表格图像的识别方法及系统。
背景技术
目前,国内外有部分国家地区,比如日本,依然采用手写形式填写表格,因此,有大批量的表格信息需要人工识别处理。面对复杂多变的表格,目前还没有相应的图像处理技术,能够有效处理这种大批量的含有复杂表格字符信息的图片。
因此,亟待一种能够应对常见的复杂表格识别问题的表格图像的识别方法,来提高字符识别的效率,增加准确率。
发明内容
针对上述现有技术存在的不足之处,本发明提供了一种表格图像的识别方法及系统。
本发明一方面提供了一种表格图像的识别方法,包括:
对表格图像进行二值化预处理,获取图像样本;
将所述图像样本内的表格区域进行定位,并将所述表格区域内的单元格从所述图像样本上进行提取;
通过投影分析法将所述单元格中的单个字符进行分割提取,获取单个字符图像;
基于深度学习神经网络的识别模型对每一所述单元格内的单个字符图像进行识别,获取所述单个字符图像的识别结果,最终输出所述表格图像的内容。
本发明一方面提供了一种表格图像的识别系统,包括:
图像样本模块,用于对表格图像进行二值化预处理,获取图像样本;
单元格提取模块,用于将所述图像样本内的表格区域进行定位,并将所述表格区域内的单元格从所述图像样本上进行提取;
单个字符图像获取模块,用于通过投影分析法将所述单元格中的单个字符进行分割提取,获取单个字符图像;
识别模块,用于基于深度学习神经网络的识别模型对每一所述单元格内的单个字符图像进行识别,获取所述单个字符图像的识别结果,最终输出所述表格图像的内容。
本发明提供的一种表格图像的识别方法及系统,通过自动的对表格进行定位和提取后,再对单元格进行自动提取,因此,能够对表格形状不固定时的图片进行批量处理,同时还能够处理含有多个表格的大文件图片,而不是仅仅局限于单一表格类型的批量处理,总之,通过本发明对表格识别处理的高效性,字符识别效果明显,因此,本发明具有识别处理速度快、准确率高的优点,给现从事信息录入的公司带来很大的便利和效益。
附图说明
图1为本发明示例性实施例的一种表格图像的识别方法的流程示意图;
图2为本发明实施例实施例的所举表格图像的例图;
图3为本发明示例性实施例的所举图像样本的例图;
图4为本发明示例性实施例的又一种表格图像的识别方法的流程示意图;
图5为本发明示例性实施例的另一种表格图像的识别方法的流程示意图;
图6为本发明示例性实施例的图像样本所获取的第1个表格图片;
图7为本发明示例性实施例的图像样本所获取的第2个表格图片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811308349.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种神经网络模型训练及通用接地线的检测方法
- 下一篇:灰尘颗粒密度解析系统





