[发明专利]一种电子卷宗表格式OCR识别的方法在审

专利信息
申请号: 202210571646.X 申请日: 2022-05-24
公开(公告)号: CN114782975A 公开(公告)日: 2022-07-22
发明(设计)人: 葛季栋;朱宇煊;朱润之;骆斌 申请(专利权)人: 南京大学
主分类号: G06V30/413 分类号: G06V30/413;G06N3/04;G06N3/08;G06V10/22;G06V10/82
代理公司: 暂无信息 代理人: 暂无信息
地址: 210023 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电子 卷宗 表格 ocr 识别 方法
【说明书】:

发明公开了一种电子卷宗表格式OCR识别的方法,包括以下步骤:图像预处理,包括图像二值化,灰度化,倾斜矫正;表格线检测,使用Canny进行边缘检测之后,采用形态学变换的方法分别提取横线图和竖线图,之后相交得到线图;单元格定位,根据交点,收缩点团,确定单元格顶点和对角点坐标;在Word上进行表格重绘;文字内容回填,训练文字识别引擎,切分单元格内容分别进行文字识别,最后回填入表格。本发明旨在处理电子卷宗OCR识别过程中对于带表格图像的处理,将表格转换为易于后续处理的Word文档格式,提高了其可修改性和可处理性。

技术领域

本发明涉及一种OCR图像识别方法,具体涉及一种电子卷宗表格式OCR识别的方法,属于数字图像处理技术领域。

背景技术

随着社会的不断发展,信息技术已经全面融入到人们的工作与生活中。信息技术和社会的高速发展同时伴随着信息爆炸,尤其在法律系统中,需要记录和存储的文书越来越多,各式各样的卷宗资料出现了爆炸式的增长,为了对这些资料中的关键信息进行有效利用,人们需要将这些文档进行合理的储存、筛选、分类以及关键信息的抽取和检索。显然,传统的纸质材料以及人工分拣的方式已经满足不了现在的需求,而基于电子文档,由程序进行的存储分类提取工作在效率和成本上都有着无可比拟的优势。

目前的文档资料主要由纸质和电子两种存储形式存在。纸质资料有着上千年的历史,而电子资料是在近几十年才逐步发展起来的。同时由于纸质资料有着易书写,不易篡改等特征,现在,很多场合依然使用各种纸质的文档资料。在人类历史中,纸质资料在知识保存和传播中发挥了非常重要的作用,其内容丰富,数量巨大。为了有效利用这规模庞大的纸质资料,并且将纸质版的特征和电子版易保存易处理的优点相结合,光学识别技术(Optical Character Recognition,OCR)应运而生。可以通过OCR方便快捷的将纸质文书转换为电子文档,为之后的信息提取和整理提供了极大地便利,有效的结合了这两类出版物的优势,摒弃各自的劣势,大大提高了工作效率。

在使用OCR技术处理法院相关文书的时候,纸质文书中有着大量的表格文档。而在OCR识别过程中,表格框线往往会对文字的识别造成很大的干扰。尤其是在法院文书的电子卷宗中,常常会出现手写体,例如签名,日期等等,手写文字因表格单元格紧凑,可能会超出单元格,这使得框线的存在进一步加大了对此类文书进行OCR识别的难度。由于印刷表格结构的复杂多样性,很难找到一种适用于任何表格的通用识别方法。如何正确的识别表格框线,并将其复现在识别后的文档中,以及如何定位表格中的文字并将其准确填入复现的表格中是目前急需解决的难点。

本发明将以处理法院文书中的表格为主要目标,设计一个能复现电子卷宗图片中表格文档的模块,取代传统的手工录入表格数据的方式,生成便于处理的Word形式,方便后续对文本内容进行处理。

发明内容

本发明是一种电子卷宗表格式OCR识别的方法,提供一种电子卷宗图像预处理方法,包括图像灰度化,图像二值化,倾斜图像矫正。并对预处理之后的图像进行表格线的提取,通过Canny边缘检测结合形态学变换的方法分别提取出图像的横线图和竖线图,以进一步得到图像的线图。之后通过线图定位单元格,使用单元格坐标信息在Word上重绘表格,并切分图像单元格内容进行文字识别,最终回填表格。该方法能有效的提取图像中的表格框线,将图片表格内容重现到Word文档中,便于对电子卷宗文件内容的进一步处理。

1.本发明所述的一种电子卷宗表格式OCR识别的方法,其特征在于包含以下步骤:

步骤(1)卷宗图像预处理;

步骤(2)表格线检测与提取;

步骤(3)单元格定位;

步骤(4)在Word上重绘表格;

步骤(5)文字内容识别与回填。

2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(1)中卷宗图像预

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210571646.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top