[发明专利]一种文档表格结构检测方法及装置在审

申请号：	202110896369.5	申请日：	2021-08-05
公开（公告）号：	CN113591746A	公开（公告）日：	2021-11-02
发明（设计）人：	瞿翊;李艺飞;孙科;支晓峰	申请（专利权）人：	上海金仕达软件科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06K9/34
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	尹秀
地址：	201203 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档表格结构检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文档表格结构检测方法及装置，接收待检测表格图片，将待检测表格图片发送给图像分割模型，得到表格线图片，表格线图片中包括：表格线和表格线的交点坐标；基于交点坐标和表格线确定待检测表格图片中包含的各个基本单元格；基于OCR方法识别待检测表格图片的各个表格内容和每个表格内容对应的内容位置；将内容位置与各个基本单元格进行对比，基于对比结果确定目标单元格，将与内容位置对应的表格内容添加到所述目标单元格中，得到目标文档表格。上述过程，不但对待检测表格图片中的表格内容和内容位置进行识别，还识别了表格线和交点坐标，确定了目标单元格，并将表格内容中的内容添加到了目标单元格，不再需要人工填写表格内容。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文档表格结构检测方法及装置。

背景技术

针对是pdf格式、图片格式或者其它无法直接编辑或提取内容文档。为例实现对文档中内容的识别，现有技术中主要采用OCR技术，OCR技术现在已经比较广泛应用于识别图片，pdf等格式的文档内容，并输出成可编辑格式，如word等，可以省去大量的人工工作。

现有的OCR技术在检测文字位置和识别文字内容方面有着比较高的精度。但是OCR技术只关注了文字位置和文字内容，对于表格这种特殊的文档内容，现有的方法只能够输出检测到的文字内容，输出的内容通常都不是结构化的，对于只包含纯文本的任务基本可以取代人工，但是在文档中包含表格的情况下，生成word文档后，还需要人工根据表格的结构，将相对应的文字识别内容填入表格框内，同时还需要手动调整单元格的合并。

发明内容

有鉴于此，本发明提供了一种文档表格结构检测方法及装置，用于解决现有技术中OCR技术只能够输出检测到的文字内容，输出的内容通常都不是结构化的，对于只包含纯文本的任务基本可以取代人工，但是在文档中包含表格的情况下，生成word文档后，还需要人工根据表格的结构，将相对应的文字识别内容填入表格框内，同时还需要手动调整单元格合并的问题，具体方案如下：

一种文档表格结构检测方法，包括：

接收待检测表格图片，将所述待检测表格图片发送给图像分割模型，得到表格线图片，其中，所述图像分割模型为深度学习模型，所述表格线图片中包括：表格线和表格线的交点坐标；

基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格；

基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置；

将所述内容位置与所述各个基本单元格进行对比，基于对比结果确定目标单元格，将与所述内容位置对应的表格内容添加到所述目标单元格中，得到目标文档表格。

上述的方法，可选的，所述表格线包括：行表格线和列表格线，将所述待检测表格图片发送给图像分割模型，得到表格线图片，包括：

对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图；

针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓，确定所述像素轮廓的几何中心，基于所述几何中心确定对应的行表格线和列表格线；

将所述行像素分割图和所述列像素分割图进行叠加，得到表格线的焦点坐标。

上述的方法，可选的，还包括：

将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。

上述的方法，可选的，基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格，包括：