[发明专利]一种表格识别方法、装置、设备及可读存储介质在审
| 申请号: | 202011232039.8 | 申请日: | 2020-11-06 |
| 公开(公告)号: | CN112329641A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 顾佳烽;刘余海;原新新 | 申请(专利权)人: | 上海恒生聚源数据服务有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06F40/289 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘颖 |
| 地址: | 200127 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 表格 识别 方法 装置 设备 可读 存储 介质 | ||
1.一种表格识别方法,其特征在于,包括:
获取待识别图像;
确定所述待识别图像中的分词块,所述分词块为包括至少一个字符的图像区域;
依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为所述待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上坐标和所述分词块的下坐标,所述分词块的上坐标为所述分词块的上边界在竖直方向的坐标值,所述分词块的下坐标为所述分词块的下边界在竖直方向的坐标值;
依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为所述待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左坐标和所述分词块的右坐标,所述分词块的左坐标为所述分词块的左边界在水平方向的坐标值,所述分词块的右坐标为所述分词块的右边界在水平方向的坐标值。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在所述电子图像中去除所述横向线段和所述竖向线段,得到待识别图像。
3.根据权利要求2所述的方法,其特征在于,所述识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述横向线段,所述像素间断参数为相邻所述第一类像素点间的最大像素距离;
在相邻两条所述横向线段之间的垂直方向上,将所述像素距离小于所述像素间断参数的相邻的所述第一类像素点之间的所述第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述纵向线段。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别图像中的分词块,包括:
使用预设的文字区域识别方法,识别所述待识别图像中的字符块,所述字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的所述字符块,得到所述分词块,所述预设合并条件包括:所述字符块间的水平距离小于预设距离阈值;和/或,所述字符块中包括的字符组成符合预设语义的分词。
5.根据权利要求1所述的方法,其特征在于,所述依据分词块的第一类坐标值,确定目标行的边界线,包括:
将满足预设的行识别条件的所述分词块划分为同一候选行,所述行识别条件包括:所述分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的所述分词块的上坐标,获取所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,获取所述目标候选行的下边界线,所述目标候选行为任一所述候选行。
6.根据权利要求5所述的方法,其特征在于,在所述将满足预设的行识别条件的所述分词块划分为同一候选行之后,所述依据目标候选行中的所述分词块的上坐标,确定所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,确定所述目标候选行的下边界线之前,还包括:
在满足预设的填充条件的候选行中增加空白分词块,所述填充条件包括:所述候选行中的所述分词块的坐标在其它所述候选行中的所述分词块的上坐标和所述分词块的下坐标之间,所述分词块的坐标包括所述分词块的上坐标和/或所述分词块的下坐标;
合并满足所述填充条件的所述候选行得到合并行,将所述合并行作为所述候选行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒生聚源数据服务有限公司,未经上海恒生聚源数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011232039.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扬声器及其制造方法
- 下一篇:一种减隔震平台





