[发明专利]表格识别方法、电子设备及计算机存储介质有效
申请号: | 201911375389.7 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111160234B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 张恒;李铭瀚 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 刘兰兰 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 识别 方法 电子设备 计算机 存储 介质 | ||
1.一种表格识别方法,包括:
检测原始表格图片中像素值属于预设数值范围的连续像素集合,根据所述连续像素集合识别所述原始表格图片中包含的原始分隔线;
根据所述原始分隔线确定投影方向,沿所述投影方向进行投影,根据各个投影像素集合的排布位置以及各个投影像素集合中像素值属于预设数值范围的像素的数量,识别所述原始表格图片中的文本区域以及间隔区域;
根据识别结果向与所述间隔区域相匹配的位置插入自定义分隔线,得到与所述原始表格图片相对应的自定义表格图片,根据所述自定义表格图片中包含的自定义分隔线识别表格内容;
其中,所述原始分隔线包括:第一分隔线以及第二分隔线,所述投影方向包括:根据第一分隔线确定的第一投影方向以及根据第二分隔线确定的第二投影方向;并且,所述自定义分隔线包括:根据第一投影方向确定的第一自定义分隔线以及根据第二投影方向确定的第二自定义分隔线;所述根据识别结果向与所述间隔区域相匹配的位置插入自定义分隔线之后,进一步包括:根据各个自定义分隔线之间的间距,校验各个自定义分隔线是否符合预设表格规范;当校验结果为否时,针对所述自定义分隔线进行调整;其中,当相邻的两条第一自定义分隔线之间的间距大于预设异常阈值时,根据第二分隔线和/或第二自定义分隔线确定限缩投影区域;在所述限缩投影区域内沿第一投影方向进行投影,根据投影结果识别所述限缩投影区域中的文本区域以及间隔区域,根据识别结果向与所述限缩投影区域中的间隔区域相匹配的位置插入限缩分隔线。
2.根据权利要求1所述的方法,其中,所述根据各个自定义分隔线之间的间距,校验各个自定义分隔线是否符合预设表格规范包括:
根据每相邻的两条自定义分隔线之间的间距是否小于预设字节间距阈值判断该相邻的两条自定义分隔线是否符合预设表格规范;
其中,预设字节间距阈值根据字节高度和/或字节宽度确定。
3.根据权利要求1所述的方法,其中,所述根据各个自定义分隔线之间的间距,校验各个自定义分隔线是否符合预设表格规范包括:
获取各个自定义分隔线与所述原始分隔线之间的间距,当自定义分隔线与所述原始分隔线之间的间距小于预设分隔间距阈值时,确定该自定义分隔线不符合预设表格规范。
4.根据权利要求1所述的方法,其中,当校验结果为否时,针对所述自定义分隔线进行调整包括:
当校验结果为否时,删除不符合预设表格规范的自定义分隔线。
5.根据权利要求1所述的方法,其中,所述第一分隔线垂直于所述第二分隔线;
其中,当所述投影方向与第一分隔线平行时,所述根据各个投影像素集合的排布位置以及各个投影像素集合中像素值属于预设数值范围的像素的数量,识别所述原始表格图片中的文本区域以及间隔区域包括:
根据所述第二分隔线的数量,确定各个投影像素集合中对应于所述第二分隔线的像素的数量;
根据所述各个投影像素集合中对应于所述第二分隔线的像素的数量,识别所述原始表格图片中的间隔区域;其中,所述第一自定义分隔线垂直于所述第二自定义分隔线。
6.根据权利要求1-5任一所述的方法,其中,所述检测原始表格图片中像素值属于预设数值范围的连续像素集合之前,进一步包括:针对所述原始表格图片执行灰度处理以及二值化处理;则所述预设数值范围包括:与黑色像素值相匹配的数值范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911375389.7/1.html,转载请声明来源钻瓜专利网。