[发明专利]表格识别方法、装置及表格识别设备有效
| 申请号: | 201910627106.7 | 申请日: | 2019-07-11 |
| 公开(公告)号: | CN110502985B | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 吴若昊 | 申请(专利权)人: | 新华三大数据技术有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/413 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 吴黎 |
| 地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表格 识别 方法 装置 设备 | ||
1.一种表格识别方法,其特征在于,适用于表格识别设备,所述方法包括:
提取待识别表格中的第一方向线段和第二方向线段,所述第一方向与所述第二方向相交;
将所述第一方向线段和所述第二方向线段进行位置回归,并提取所述第一方向线段和所述第二方向线段的交点和所述交点的类型,所述交点的类型包括线段交叉点、线段终点和线段起点;
根据所述第一方向线段和所述第二方向线段生成虚拟表格,所述虚拟表格包括n-1行、m-1列,其中n为第一方向线段的数量,m为第二方向线段的数量;
根据所述交点的类型对所述虚拟表格的单元格进行合并得到识别后的表格;
其中,所述根据所述交点的类型对所述虚拟表格的单元格进行合并得到识别后的表格包括:
选择所述待识别表格中的任意交点作为目标点,分别在所述目标点所在的x轴方向线段上和y轴方向线段上检测所述虚拟表格的单元格的顶点是否为所述待识别表格中的交点;
当当前顶点不为所述待识别表格中的交点时,沿x轴方向和y轴方向分别合并所述当前顶点所在的单元格。
2.如权利要求1所述的识别方法,其特征在于,
当所述当前顶点为所述待识别表格中的交点时;
判断所述当前顶点是否为所述待识别表格中的所述线段交叉点;
当所述当前顶点为所述待识别表格中的所述线段交叉点时,确认所述当前顶点所在的单元格为分立单元格。
3.如权利要求1或2所述的识别方法,其特征在于,
当当前顶点为所述待识别表格中的交点时;
判断所述当前顶点是否为所述待识别表格中除所述当前顶点所处线段以外的其他线段的线段起点或线段终点;
当所述当前顶点为其他线段的线段起点或线段终点时,在检测的x轴方向或者y轴方向上合并所述当前顶点与所述目标点之间连线背离所述其他线段的一侧的当前顶点所在的单元格。
4.如权利要求1所述的识别方法,其特征在于:所述第一方向包括x轴方向,第二方向包括y轴方向;
所述提取由所述第一方向线段和所述第二方向线段的交点和所述交点的类型包括:
基于图像形态学提取待识别表格中的x轴方向线段和y轴方向线段以及所述x轴方向线段和所述y轴方向线段的交点;
在预设坐标系下对所述交点坐标赋值,得到各个所述交点的坐标值;
基于所述坐标值确认所述交点的类型。
5.如权利要求4所述的识别方法,其特征在于,还包括:
基于所述交点的坐标值依次对所述待识别表格的单元格切割;
按照切割顺序识别切割后的单元格中内的文字;
按照所述切割顺序依次将识别后的文字填入识别后的表格的单元格内。
6.如权利要求5所述的识别方法,其特征在于,所述按照切割顺序识别切割后的单元格中内的文字包括:
判断所述切割后的单元格内是否包含文字,
当所述切割后的单元格内不包含文字时,输出预设字符。
7.如权利要求5或6所述的识别方法,其特征在于,所述预设坐标系的原点为所述待识别表格的任意之一的顶角所在的交点,所述方法还包括:
选取切割所述待识别表格的单元格的切割起点,所述切割起点的坐标值中的x轴坐标值的绝对值为非最大值且y轴坐标值的绝对值为非最大值;
保持所述切割起点的y轴坐标不变沿x轴的坐标值的绝对值增加的方向遍历所述交点的坐标值,选取第一切割终点,所述第一切割终点为其所在y轴方向线段的所述线段交叉点或所述线段起点;
保持所述第一切割终点的x轴坐标不变,沿y轴坐标值的绝对值变大的方向遍历所述交点的坐标值,选取第二切割终点,所述第二切割终点为其所在x轴方向线段的所述线段交叉点或所述线段终点;
根据所述切割起点和所述第二切割终点的坐标值对所述待识别表格的单元格切割。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910627106.7/1.html,转载请声明来源钻瓜专利网。





