[发明专利]一种表格识别方法、装置、设备及可读存储介质在审
申请号: | 202011232039.8 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112329641A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 顾佳烽;刘余海;原新新 | 申请(专利权)人: | 上海恒生聚源数据服务有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘颖 |
地址: | 200127 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 方法 装置 设备 可读 存储 介质 | ||
本申请实施例提供了一种表格识别方法、装置、设备及可读存储介质,获取待识别图像,确定待识别图像中的分词块,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值,任意一个分词块的第一类坐标值能够表征该分词块在待识别图像中在竖直方向的位置,任意一个分词块的第二类坐标值能够表征该分词块在待识别图像中在水平方向的位置。因此,本方案依据分词块的第一类坐标值确定目标行的上边界线以及下边界线。依据分词块的第二类坐标值以及目标行的边界线,确定目标列左边界线和右边界线。
技术领域
本申请涉及表格识别技术领域,尤其涉及一种表格识别方法、装置、设备及可读存储介质。
背景技术
目前,识别电子图像中的表格的方法包括两种:第一种:先针对样本图像提炼表格模板,进行模板匹配,后按照模板规则识别表格。第二种:创建训练集,生成训练模型,不断地迭代、参数调优以进行图片内表格的识别。
可见,现有的表格的识别方法需要收集大量样本图片进行模板提炼或者学习训练,前期准备工作量极大,识别效果极大地依赖于样本集的全面性和普遍性。
发明内容
本申请提供了一种表格识别方法、装置、设备及可读存储介质,目的在于提高表格的识别准确率,如下:
一种表格识别方法,包括:
获取待识别图像;
确定所述待识别图像中的分词块,所述分词块为包括至少一个字符的图像区域;
依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为所述待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上坐标和所述分词块的下坐标,所述分词块的上坐标为所述分词块的上边界在竖直方向的坐标值,所述分词块的下坐标为所述分词块的下边界在竖直方向的坐标值;
依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为所述待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左坐标和所述分词块的右坐标,所述分词块的左坐标为所述分词块的左边界在水平方向的坐标值,所述分词块的右坐标为所述分词块的右边界在水平方向的坐标值。
可选地,获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在所述电子图像中去除所述横向线段和所述竖向线段,得到待识别图像。
可选地,在所述识别电子图像中的横向线段和纵向线段之前,还包括以下至少一项:
去除所述电子图像中的图章图像,所述图章图像为预设图章在所述电子图像中的成像;
对所述电子图像进行角度校正;
对所述电子图像进行二值化。
可选地,识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述横向线段,所述像素间断参数为相邻所述第一类像素点间的最大像素距离;
在相邻两条所述横向线段之间的垂直方向上,将所述像素距离小于所述像素间断参数的相邻的所述第一类像素点之间的所述第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述纵向线段。
可选地,确定待识别图像中的分词块,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒生聚源数据服务有限公司,未经上海恒生聚源数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011232039.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扬声器及其制造方法
- 下一篇:一种减隔震平台