[发明专利]一种基于语义分割的有线表格图片解析方法和装置在审

专利信息
申请号: 202011439017.9 申请日: 2020-12-07
公开(公告)号: CN112507876A 公开(公告)日: 2021-03-16
发明(设计)人: 陈贺;刘张宇;邹志龙 申请(专利权)人: 数地科技(北京)有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100080 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 分割 有线 表格 图片 解析 方法 装置
【权利要求书】:

1.一种基于语义分割的有线表格图片解析方法,其特征在于,包括如下步骤:

对表格图片进行语义分割处理;

对语义分割结果图进行处理,获得连通域;

通过连通域计算单元格坐标信息;

利用单元格坐标信息,基于表格线聚类重绘表格图片;

对重绘的表格图片进行解析,获取行列信息以及合并单元格信息;

切割原始表格图片的单元格进行文字识别;

将文字识别的结果、行列信息以及合并单元格信息组合生成可编辑的文本表格。

2.根据权利要求1所述的方法,其特征在于,在所述语义分割处理之前,对表格图片进行预处理;所述预处理包括对表格图片进行灰度化处理,生成表格图片的灰度图。

3.根据权利要求1所述的方法,其特征在于,使用U-Net网络模型进行所述语义分割处理,以对图像中的每个像素赋予标签,即每个像素属于表格线或者不属于表格线,所述语义分割处理包括:

进行Conv+Pooling下采样,经过不同程度的卷积,学习深层次的特征;

使用Deconv反卷积上采样与之前的低层特征图进行融合。

4.根据权利要求1所述的方法,其特征在于,所述对语义分割结果图进行处理,包括:

对语义分割结果图进行二值化处理,得到二值化图像;

对二值化图像进行图像滤波;

对滤波后的图像进行形态学操作,包括腐蚀操作、膨胀操作、开操作以及闭操作;

对形态学操作后的图片进行轮廓查找与检测,获得连通域。

5.根据权利要求1所述的方法,其特征在于,所述通过连通域计算单元格坐标信息,包括:

对连通区域进行过滤,对面积过小以及长度过小的进行丢弃;

对于剩下的每个有效连通区域,分别得到拟合的最小外接矩形信息,返回其四个点的坐标信息((x1,y1),(x2,y2),(x3,y3),(x4,y4)),其分别代表左上角,右上角,右下角,左下角。

6.根据权利要求1所述的方法,其特征在于,所述基于表格线聚类重绘表格图片,包括:

创建与原始图片大小一样的白色画布;

通过连通域计算获取的单元格坐标点,形成2条单元格边界线,包括上边界线、左边界线,并且创建两个哈希表,其中一个哈希表是上边界线与单元格的双向字典,另一个哈希表是左边界线与单元格的双向字典;

基于上边界线进行线条聚类;

基于右边界线进行线条聚类。

7.根据权利要求1所述的方法,其特征在于,所述对重绘的表格进行解析,包括:

获取表格线在x轴和y轴的投影点;

将表格线在x轴和y轴的投影点v1,...vm和h1...hn生成两个列表v_list:[v1-1,v1+1,v2-1,v2+1...vm-1,vm+1]和h_list[h1-1,h1+1,h2-1,h2+1...hn-1,hn+1];

循环遍历v_list和h_list,判断(vi-1,hj-1),(vi+1,hj-1),(vi-1,hj+1),(vi+1,hj+1)这四个点组成的小矩形是否有横线和竖线,基于此方式来确定行列信息和合并单元格信息。

8.根据权利要求1所述的方法,其特征在于,所述的切割原始表格图片的单元格进行文字识别,是使用OCR识别工具来识别单元格图片,从而进行单元格内文字识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数地科技(北京)有限公司,未经数地科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011439017.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top