[发明专利]一种基于聚类的表格识别方法及系统在审
申请号: | 202110787908.1 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113283398A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 孙喜民;周晶;田晓芸;贾江凯;王明达;王帅;李慧超;李晓明 | 申请(专利权)人: | 国网电子商务有限公司;国网电商科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62 |
代理公司: | 成都华复知识产权代理有限公司 51298 | 代理人: | 庞启成 |
地址: | 100053 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 表格 识别 方法 系统 | ||
1.一种基于聚类的表格识别方法,其特征是,用于无边框表格的提取,包括:
S110:获取包括待识别无边框表格的PDF图片;
S120:检测PDF图片中文字,将各文字的中心位置标记为关键点,并获取关键点信息;所述关键点信息至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度;
S130:基于关键点的聚类识别表格文字;本步骤包括:
S131:根据位置对关键点进行聚类,将同一类别关键点所包含文字合并,对各合并后文字标记关键点并更新关键点信息;
S132:基于宽度剔除包含非表格文字的关键点;
S133:根据位置对剩余关键点进行聚类;
S134:对每一类别中所有关键点包含文字做最小矩形外框,将存在交集的最小矩形外框内关键点合并为同一类别;
S135:对新的类别重复执行步骤S134,直至不再存在有交集的最小矩形外框;
S136:统计各类别所包含的关键点数,剔除所含关键点数少于预设数量阈值的类别。
2.如权利要求1所述的基于聚类的表格识别方法,其特征是:
子步骤S122具体为:
计算关键点所包含文字的最小矩形外框宽度与PDF图片宽度的比值,当该比值超过预设百分阈值,则该关键点包含文字被认为非表格文字,剔除该关键点。
3.如权利要求1所述的基于聚类的表格识别方法,其特征是,还包括:
S140:提取同一类别所包含的关键点,对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标,将各关键点的横坐标依次与各参考横坐标求距离,将关键点横坐标更新为与其距离最小的参考横坐标;将各关键点的纵坐标依次与各参考纵坐标求距离,将关键点纵坐标更新为与其距离最小的参考纵坐标;参考横坐标应位于所在列所有关键点的横坐标范围内,参考纵坐标应位于所在行所有关键点的纵坐标范围内。
4.一种基于聚类的表格识别系统,其特征是,用于无边框表格的提取,包括:
第一获取单元,用来获取包括待识别无边框表格的PDF图片;
文字检测单元,用来检测PDF图片中文字,将文字的中心标记为关键点,每一关键点至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度;
表格文字识别单元,用来利用关键点的聚类识别表格文字;
所述表格文字识别单元包括:
第一聚类子单元,用来根据位置对关键点进行聚类,将同一类关键点所包含文字合并,对各合并后文字标记关键点;
剔除子单元,用来基于宽度剔除包含非表格文字的关键点;
第二聚类子单元,用来根据位置对剩余关键点进行聚类;
合并单元,用来对每一类别中所有关键点包含文字做最小矩形外框,将存在交集的最小矩形外框内关键点合并为同一类别;
重复单元,用来将新的类别重复输入合并单元,直至不再存在有交集的最小矩形外框;
统计单元,用来统计各类别所包含的关键点数,剔除所含关键点数少于预设数量阈值的类别。
5.如权利要求4所述的基于聚类的表格识别系统,其特征是:
还包括第一去抖单元,用来提取同一类别所包含的关键点,对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标,将各关键点的横坐标依次与各参考横坐标求距离,将关键点横坐标更新为与其距离最小的参考横坐标;将各关键点的纵坐标依次与各参考纵坐标求距离,将关键点纵坐标更新为与其距离最小的参考纵坐标;参考横坐标应位于所在列所有关键点的横坐标范围内,参考纵坐标应位于所在行所有关键点的纵坐标范围内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电子商务有限公司;国网电商科技有限公司,未经国网电子商务有限公司;国网电商科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787908.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防尘散热功能的电动车控制器
- 下一篇:一种硝基苯生产中的水洗分层器