[发明专利]一种基于聚类的表格识别方法及系统在审

专利信息
申请号: 202110787908.1 申请日: 2021-07-13
公开(公告)号: CN113283398A 公开(公告)日: 2021-08-20
发明(设计)人: 孙喜民;周晶;田晓芸;贾江凯;王明达;王帅;李慧超;李晓明 申请(专利权)人: 国网电子商务有限公司;国网电商科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/62
代理公司: 成都华复知识产权代理有限公司 51298 代理人: 庞启成
地址: 100053 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 表格 识别 方法 系统
【权利要求书】:

1.一种基于聚类的表格识别方法,其特征是,用于无边框表格的提取,包括:

S110:获取包括待识别无边框表格的PDF图片;

S120:检测PDF图片中文字,将各文字的中心位置标记为关键点,并获取关键点信息;所述关键点信息至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度;

S130:基于关键点的聚类识别表格文字;本步骤包括:

S131:根据位置对关键点进行聚类,将同一类别关键点所包含文字合并,对各合并后文字标记关键点并更新关键点信息;

S132:基于宽度剔除包含非表格文字的关键点;

S133:根据位置对剩余关键点进行聚类;

S134:对每一类别中所有关键点包含文字做最小矩形外框,将存在交集的最小矩形外框内关键点合并为同一类别;

S135:对新的类别重复执行步骤S134,直至不再存在有交集的最小矩形外框;

S136:统计各类别所包含的关键点数,剔除所含关键点数少于预设数量阈值的类别。

2.如权利要求1所述的基于聚类的表格识别方法,其特征是:

子步骤S122具体为:

计算关键点所包含文字的最小矩形外框宽度与PDF图片宽度的比值,当该比值超过预设百分阈值,则该关键点包含文字被认为非表格文字,剔除该关键点。

3.如权利要求1所述的基于聚类的表格识别方法,其特征是,还包括:

S140:提取同一类别所包含的关键点,对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标,将各关键点的横坐标依次与各参考横坐标求距离,将关键点横坐标更新为与其距离最小的参考横坐标;将各关键点的纵坐标依次与各参考纵坐标求距离,将关键点纵坐标更新为与其距离最小的参考纵坐标;参考横坐标应位于所在列所有关键点的横坐标范围内,参考纵坐标应位于所在行所有关键点的纵坐标范围内。

4.一种基于聚类的表格识别系统,其特征是,用于无边框表格的提取,包括:

第一获取单元,用来获取包括待识别无边框表格的PDF图片;

文字检测单元,用来检测PDF图片中文字,将文字的中心标记为关键点,每一关键点至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度;

表格文字识别单元,用来利用关键点的聚类识别表格文字;

所述表格文字识别单元包括:

第一聚类子单元,用来根据位置对关键点进行聚类,将同一类关键点所包含文字合并,对各合并后文字标记关键点;

剔除子单元,用来基于宽度剔除包含非表格文字的关键点;

第二聚类子单元,用来根据位置对剩余关键点进行聚类;

合并单元,用来对每一类别中所有关键点包含文字做最小矩形外框,将存在交集的最小矩形外框内关键点合并为同一类别;

重复单元,用来将新的类别重复输入合并单元,直至不再存在有交集的最小矩形外框;

统计单元,用来统计各类别所包含的关键点数,剔除所含关键点数少于预设数量阈值的类别。

5.如权利要求4所述的基于聚类的表格识别系统,其特征是:

还包括第一去抖单元,用来提取同一类别所包含的关键点,对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标,将各关键点的横坐标依次与各参考横坐标求距离,将关键点横坐标更新为与其距离最小的参考横坐标;将各关键点的纵坐标依次与各参考纵坐标求距离,将关键点纵坐标更新为与其距离最小的参考纵坐标;参考横坐标应位于所在列所有关键点的横坐标范围内,参考纵坐标应位于所在行所有关键点的纵坐标范围内。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电子商务有限公司;国网电商科技有限公司,未经国网电子商务有限公司;国网电商科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110787908.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top