[发明专利]一种文档表格结构检测方法及装置在审
申请号: | 202110896369.5 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113591746A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 瞿翊;李艺飞;孙科;支晓峰 | 申请(专利权)人: | 上海金仕达软件科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 尹秀 |
地址: | 201203 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 表格 结构 检测 方法 装置 | ||
1.一种文档表格结构检测方法,其特征在于,包括:
接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
2.根据权利要求1所述的方法,其特征在于,所述表格线包括:行表格线和列表格线,将所述待检测表格图片发送给图像分割模型,得到表格线图片,包括:
对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
4.根据权利要求1所述的方法,其特征在于,基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格,包括:
针对所述交点坐标确定各个初始单元格;
基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
5.根据权利要求1所述的方法,其特征在于,将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,包括:
基于所述内容位置确定第一单元格面积;
获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
6.一种文档表格结构检测装置,其特征在于,包括:
分割模块,用于接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
确定模块,用于基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
识别模块,用于基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
对比和添加模块,用于将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
7.根据权利要求6所述的装置,其特征在于,所述表格线包括:行表格线和列表格线,所述分割模块包括:
第一确定单元,用于对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
第二确定单元,用于针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
叠加单元,用于将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
8.根据权利要求7所述的装置,其特征在于,还包括:
卷积单元,用于将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
9.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第三确定单元,针对所述交点坐标确定各个初始单元格;
判断单元,用于基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
10.根据权利要求6所述的装置,其特征在于,所述对比和添加模块包括:
第四确定单元,用于基于所述内容位置确定第一单元格面积;
获取和确定单元,用于获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
第五确定单元,用于确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金仕达软件科技有限公司,未经上海金仕达软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110896369.5/1.html,转载请声明来源钻瓜专利网。