[发明专利]表格识别方法和装置、计算机可读存储介质在审

申请号：	201911357969.3	申请日：	2019-12-25
公开（公告）号：	CN111144282A	公开（公告）日：	2020-05-12
发明（设计）人：	祁立	申请（专利权）人：	北京同邦卓益科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	王莉莉
地址：	100176 北京市大兴区北京经济技***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	表格识别方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及表格识别方法和装置、计算机可读存储介质。表格识别方法，包括：识别待识别表格的第一轮廓线；根据第一轮廓线，确定待识别表格的多个第一文字区域；对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；根据行列分割点，识别待识别表格的第二轮廓线；根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；使用文本识别模型，识别每个第二文字区域中的文字；将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。

技术领域

本公开涉及计算机领域，特别涉及一种表格识别方法和装置、计算机可读存储介质。

背景技术

在各行各业都存在大量图像表格文件，随着目前信息化、智能化技术的快速发展，对图像表格文件的自动数字化处理，有着越来越广泛的应用场景。

图像表格文件的识别一般包括如下步骤如下：1)图像预处理(例如，灰度化、二值化、各种变换)；2)表格的轮廓线识别；3)文字区域识别；4)对文字进行切割或比对；5)使用训练好的识别模型识别具体文字。

在实际的表格图像中，存在各种各样的噪音或者水印等干扰信息，或者行列之间过于靠近，无法区分，导致识别出来文字分裂，或者缺失，不能很好地识别出整体表格。

发明内容

本公开提出了一种表格识别方案，能够进一步提高表格识别的准确性。

根据本公开的一些实施例，提供了一种表格识别方法，包括：识别待识别表格的第一轮廓线；

根据第一轮廓线，确定待识别表格的多个第一文字区域；

对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；

根据行列分割点，识别待识别表格的第二轮廓线；