[发明专利]一种基于语义分割的有线表格图片解析方法和装置在审
| 申请号: | 202011439017.9 | 申请日: | 2020-12-07 |
| 公开(公告)号: | CN112507876A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 陈贺;刘张宇;邹志龙 | 申请(专利权)人: | 数地科技(北京)有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 分割 有线 表格 图片 解析 方法 装置 | ||
本发明公开了一种基于语义分割的有线表格图片解析方法和装置,涉及图像处理技术领域。该方法包括对表格图片进行预处理、对预处理后的表格图片进行语义分割处理、对语义分割后的表格图片进行处理、基于联通域计算表格图片单元格的位置信息、基于表格线聚类重绘表格图片并获取表格布局、基于投影解析计算表格并获取表格行列信息以及行宽和列宽、基于原始表格布局切割单元格进行文字识别从而生成可编辑文本。本发明克服折横、光纤、印章等干扰项带来误差的缺陷,增强了解析有线表格图片的通用型与抗干扰性,对比已有技术方法,本发明能够高效地解析有线表格,不需要人工解析,减少了人力,具有良好的效果。
技术领域
本发明属于计算机处理技术领域,尤其涉及图像处理领域和自然语言处理领域,具体涉及一种基于语义分割的有线表格图片解析方法和装置。
背景技术
目前,深度学习在计算机视觉领域发展迅速,它已经完全超越了传统方法的准确率与效率,引起业界对其的普遍关注。深度学习是机器学习领域中的一个分支,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的目的在于建立与模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。然而,解析表格图片是指将表格图片中的表格图片转换成可编辑的表格文本,并且保留原始表格图片的单元格位置信息、行列信息以及合并单元格信息,该过程需要用到表格解析技术。
现有的技术中,解析表格图片的方法多种多样,主要分为两大类方法,基于投影算法解析表格图片和基于文字定位解析表格图片。在基于投影算法解析表格图片中,发现干扰项(折横,光线,印章等)引起的误差较大,并且干扰项不能很好的去除。另外,对于手机拍摄的表格图片,由于不是笔直的表格线,投影算法在该类表格图片中不能很好地应用。在基于文字定位解析表格图片中,对于密集表格图片和含有合并单元格的图片则不能进行有效的表格提取。
因此,需要一种通用的、性能高效、准确率高的解析表格图片的方法。
发明内容
本发明的目的是为了克服已有技术的缺陷,为了解决现有技术方法不能有效解析通用表格图片问题,提出基于语义分割的有线表格图片解析方法和装置。
本发明采用的技术方案如下:
一种基于语义分割的有线表格图片解析方法,包括如下步骤:
对表格图片进行语义分割处理;
对语义分割结果图进行处理,获得连通域;
通过连通域计算单元格坐标信息;
利用单元格坐标信息,基于表格线聚类重绘表格图片;
对重绘的表格图片进行解析,获取行列信息以及合并单元格信息;
切割原始表格图片的单元格进行文字识别;
将文字识别的结果、行列信息以及合并单元格信息组合生成可编辑的文本表格。
进一步地,在所述语义分割处理之前,对表格图片进行预处理;所述预处理包括对表格图片进行灰度化处理,生成表格图片的灰度图。
进一步地,使用U-Net网络模型进行所述语义分割处理,以对图像中的每个像素赋予标签,即每个像素属于表格线或者不属于表格线,所述语义分割处理包括:
进行Conv+Pooling下采样,经过不同程度的卷积,学习深层次的特征;
使用Deconv反卷积上采样与之前的低层特征图进行融合。
进一步地,所述对语义分割结果图进行处理,包括:
对语义分割结果图进行二值化处理,得到二值化图像;
对二值化图像进行图像滤波;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数地科技(北京)有限公司,未经数地科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011439017.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种育苗盘自动摆盘机
- 下一篇:一种移动式智慧黑板粉尘收集装置及其系统





