[发明专利]图片表格的识别方法、装置、电子设备及存储介质在审

专利信息
申请号: 202010682811.X 申请日: 2020-07-15
公开(公告)号: CN111860502A 公开(公告)日: 2020-10-30
发明(设计)人: 蒙丽宇;汪明浩 申请(专利权)人: 北京思图场景数据科技服务有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/62;G06N3/04;G06T7/11;G06T7/187;G06T7/90
代理公司: 成都顶峰专利事务所(普通合伙) 51224 代理人: 王霞
地址: 100000 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图片 表格 识别 方法 装置 电子设备 存储 介质
【说明书】:

本申请实施例提供了一种图片表格的识别方法、装置、电子设备及存储介质,涉及图像识别技术领域,该方法包括:对表格区域进行分割,得到横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图;对二值化的横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行连通区域分析和聚类,得横线段对象集合、竖线段对象集合、行区域像素点集合和列区域像素点集合;根据横线段对象集合、竖线段对象集合、行区域像素点集合与列区域像素点集,确定出多个单元格;将图片表格中提取出的文本内容添加至单元格中。本申请实施例提供的方法、装置、电子设备及存储介质可准确的识别出图片表格中的表格。

技术领域

本文件涉及图像识别技术领域,尤其涉及一种图片表格的识别方法、装置、电子设备及存储介质。

背景技术

图片表格识别技术主要是针对手机拍摄图片、其他自然场景图片或电子文档转化的图片中的表格进行识别。

目前,对于图片表格的识别往往是先将表格进行校正,使图像中的表格线基本可视为直线后进行图像识别处理。

然而,由于外界因素影响导致表格线产生弯曲变形、颜色不均匀等情形时,表格的识别效果将会大打折扣。因此,如何提供一种有效的方案以准确识别出图片表格是现有技术中一亟待解决的问题。

发明内容

本申请实施例提供一种图片表格的识别方法、装置、电子设备及存储介质,用以解决现有技术存在的图片表格的识别效果差的问题。

为解决上述技术问题,本申请实施例是这样实现的:

第一方面,本申请实施例提供了一种图片表格的识别方法,包括:

通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型,对图片表格的表格区域进行分割,得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图;

分别对所述横线分割灰度图和所述竖线分割灰度图进行二值化处理,并对二值化处理后的所述横线分割灰度图和二值化处理后的所述竖线分割灰度图进行连通区域分析和聚类,得到与所述横线分割灰度图对应的横线段对象集合和与所述竖线分割灰度图对应的竖线段对象集合;

分别对所述行区域分割灰度图和所述列区域分割灰度图进行二值化处理,并对二值化处理后的所述行区域分割灰度图和二值化处理后的所述列区域分割灰度图进行连通区域分析和聚类,得到与所述行区域分割灰度图对应的多个行区域像素点集合和与所述列区域分割灰度图对应的多个列区域像素点集合;

根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域,确定出与所述表格区域对应的多个单元格;

对所述图片表格中的内容进行文本提取,得到所述图片表格中的文本内容;

基于所述文本内容的位置和所述多个单元格中每个单元格的位置,将所述文本内容添加至对应的单元格中。

可选的,根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域,确定出与所述表格区域对应的多个单元格,包括:

根据所述横线段对象集合与所述竖线段对象集合对应的线段交点,确定出与所述表格区域对应的多个单元格顶点;

基于与所述表格区域对应的多个单元格顶点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域。

可选的,所述方法还包括:

将所述图片表格、所述横线分割灰度图、所述竖线分割灰度图、所述行区域分割灰度图和所述列区域分割灰度图作为预先训练的单元格合并判别模型的输入进行运算,得到相邻单元格之间的置信度矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思图场景数据科技服务有限公司,未经北京思图场景数据科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010682811.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top