[发明专利]表格识别方法和装置、计算机可读存储介质在审
| 申请号: | 201911357969.3 | 申请日: | 2019-12-25 |
| 公开(公告)号: | CN111144282A | 公开(公告)日: | 2020-05-12 |
| 发明(设计)人: | 祁立 | 申请(专利权)人: | 北京同邦卓益科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 王莉莉 |
| 地址: | 100176 北京市大兴区北京经济技*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表格 识别 方法 装置 计算机 可读 存储 介质 | ||
本公开涉及表格识别方法和装置、计算机可读存储介质。表格识别方法,包括:识别待识别表格的第一轮廓线;根据第一轮廓线,确定待识别表格的多个第一文字区域;对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;根据行列分割点,识别待识别表格的第二轮廓线;根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;使用文本识别模型,识别每个第二文字区域中的文字;将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
技术领域
本公开涉及计算机领域,特别涉及一种表格识别方法和装置、计算机可读存储介质。
背景技术
在各行各业都存在大量图像表格文件,随着目前信息化、智能化技术的快速发展,对图像表格文件的自动数字化处理,有着越来越广泛的应用场景。
图像表格文件的识别一般包括如下步骤如下:1)图像预处理(例如,灰度化、二值化、各种变换);2)表格的轮廓线识别;3)文字区域识别;4)对文字进行切割或比对;5)使用训练好的识别模型识别具体文字。
在实际的表格图像中,存在各种各样的噪音或者水印等干扰信息,或者行列之间过于靠近,无法区分,导致识别出来文字分裂,或者缺失,不能很好地识别出整体表格。
发明内容
本公开提出了一种表格识别方案,能够进一步提高表格识别的准确性。
根据本公开的一些实施例,提供了一种表格识别方法,包括:识别待识别表格的第一轮廓线;
根据第一轮廓线,确定待识别表格的多个第一文字区域;
对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
根据行列分割点,识别待识别表格的第二轮廓线;
根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
使用文本识别模型,识别每个第二文字区域中的文字;
将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
在一些实施例中,对多个第一文字区域分别按照行和列进行聚类,以计算待识别表格的行列分割点包括:
提取多个第一文字区域的行坐标区间段和列坐标区间段;
分别根据行坐标区间段、列坐标区间段的交叠程度,判断是否合并相应的第一文字区域;
基于合并的结果,计算待识别表格的行列分割点。
在一些实施例中,判断是否合并相应的第一文字区域包括:
分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分;
在合并后的聚类评分大于合并前的聚类评分的情况下,判断为合并相应的第一文字区域。
在一些实施例中,分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括:
将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数;
根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目,对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。
在一些实施例中,聚类评分与聚类内有交集的样本对的数目正相关,与不同聚类间无交集的样本对的数目负相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京同邦卓益科技有限公司,未经北京同邦卓益科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911357969.3/2.html,转载请声明来源钻瓜专利网。





