[发明专利]一种文档表格结构检测方法及装置在审
申请号: | 202110896369.5 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113591746A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 瞿翊;李艺飞;孙科;支晓峰 | 申请(专利权)人: | 上海金仕达软件科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 尹秀 |
地址: | 201203 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 表格 结构 检测 方法 装置 | ||
本发明公开了一种文档表格结构检测方法及装置,接收待检测表格图片,将待检测表格图片发送给图像分割模型,得到表格线图片,表格线图片中包括:表格线和表格线的交点坐标;基于交点坐标和表格线确定待检测表格图片中包含的各个基本单元格;基于OCR方法识别待检测表格图片的各个表格内容和每个表格内容对应的内容位置;将内容位置与各个基本单元格进行对比,基于对比结果确定目标单元格,将与内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。上述过程,不但对待检测表格图片中的表格内容和内容位置进行识别,还识别了表格线和交点坐标,确定了目标单元格,并将表格内容中的内容添加到了目标单元格,不再需要人工填写表格内容。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文档表格结构检测方法及装置。
背景技术
针对是pdf格式、图片格式或者其它无法直接编辑或提取内容文档。为例实现对文档中内容的识别,现有技术中主要采用OCR技术,OCR技术现在已经比较广泛应用于识别图片,pdf等格式的文档内容,并输出成可编辑格式,如word等,可以省去大量的人工工作。
现有的OCR技术在检测文字位置和识别文字内容方面有着比较高的精度。但是OCR技术只关注了文字位置和文字内容,对于表格这种特殊的文档内容,现有的方法只能够输出检测到的文字内容,输出的内容通常都不是结构化的,对于只包含纯文本的任务基本可以取代人工,但是在文档中包含表格的情况下,生成word文档后,还需要人工根据表格的结构,将相对应的文字识别内容填入表格框内,同时还需要手动调整单元格的合并。
发明内容
有鉴于此,本发明提供了一种文档表格结构检测方法及装置,用于解决现有技术中OCR技术只能够输出检测到的文字内容,输出的内容通常都不是结构化的,对于只包含纯文本的任务基本可以取代人工,但是在文档中包含表格的情况下,生成word文档后,还需要人工根据表格的结构,将相对应的文字识别内容填入表格框内,同时还需要手动调整单元格合并的问题,具体方案如下:
一种文档表格结构检测方法,包括:
接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
上述的方法,可选的,所述表格线包括:行表格线和列表格线,将所述待检测表格图片发送给图像分割模型,得到表格线图片,包括:
对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
上述的方法,可选的,还包括:
将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
上述的方法,可选的,基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格,包括:
针对所述交点坐标确定各个初始单元格;
基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金仕达软件科技有限公司,未经上海金仕达软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110896369.5/2.html,转载请声明来源钻瓜专利网。