[发明专利]表格识别方法、电子设备及计算机存储介质有效
申请号: | 201911375389.7 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111160234B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 张恒;李铭瀚 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 刘兰兰 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 识别 方法 电子设备 计算机 存储 介质 | ||
本发明公开了一种表格识别方法、电子设备及计算机存储介质,该方法包括:检测原始表格图片中像素值属于预设数值范围的连续像素集合,根据连续像素集合识别原始表格图片中包含的原始分隔线;根据原始分隔线确定投影方向,沿投影方向进行投影,根据各个投影像素集合的排布位置以及各个投影像素集合中像素值属于预设数值范围的像素的数量,识别原始表格图片中的文本区域以及间隔区域;根据识别结果向与间隔区域相匹配的位置插入自定义分隔线,得到与原始表格图片相对应的自定义表格图片,根据自定义表格图片中包含的自定义分隔线识别表格内容。该方式能够自动补齐缺少的分隔线,进而根据补齐分隔线之后的表格进行内容识别。
技术领域
本发明涉及计算机领域,具体涉及一种表格识别方法、电子设备及计算机存储介质。
背景技术
表格能够清晰展示多个关联数据项之间的相互关系,因此,广泛应用于各类应用场景。相应的,电子书中通常会包含表格、图表等数据信息。由于表格内容不利于在终端设备中展示,因此,在制作电子书的过程中,通常会将表格直接处理为图片形式,图片以其便于调整位置、大小等优势而在电子书制作过程中得到了广泛应用。
但是,在一些电子书的制作过程中,需要针对表格内容进行编辑,此时,需要针对图片形式的表格内容进行识别,以转换为可编辑的表格形式。通常情况下,通过识别表格中的分隔线的方式能够快速识别由分隔线分隔的表格内容。
但是,在实现本发明的过程中,发明人发现现有技术中的上述方案至少存在下述缺陷:通过识别表格分隔线来识别表格内容的方式局限性较大,只能适用于表格分隔线完备的表格图片的识别过程。但是,实际情况中,很多表格只有外部框线,而内部的分隔线则处于缺省状态,对于该类缺少分隔线的表格则无法通过上述方式准确识别。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的表格识别方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种表格识别方法,包括:
检测原始表格图片中像素值属于预设数值范围的连续像素集合,根据连续像素集合识别原始表格图片中包含的原始分隔线;根据原始分隔线确定投影方向,沿投影方向进行投影,根据各个投影像素集合的排布位置以及各个投影像素集合中像素值属于预设数值范围的像素的数量,识别原始表格图片中的文本区域以及间隔区域;根据识别结果向与间隔区域相匹配的位置插入自定义分隔线,得到与原始表格图片相对应的自定义表格图片,根据自定义表格图片中包含的自定义分隔线识别表格内容。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
检测原始表格图片中像素值属于预设数值范围的连续像素集合,根据连续像素集合识别原始表格图片中包含的原始分隔线;根据原始分隔线确定投影方向,沿投影方向进行投影,根据各个投影像素集合的排布位置以及各个投影像素集合中像素值属于预设数值范围的像素的数量,识别原始表格图片中的文本区域以及间隔区域;根据识别结果向与间隔区域相匹配的位置插入自定义分隔线,得到与原始表格图片相对应的自定义表格图片,根据自定义表格图片中包含的自定义分隔线识别表格内容。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911375389.7/2.html,转载请声明来源钻瓜专利网。