[发明专利]基于深度学习和并查集算法识别并抽取图片的方法及装置有效

专利信息
申请号: 202010919839.0 申请日: 2020-09-04
公开(公告)号: CN112149523B 公开(公告)日: 2021-05-28
发明(设计)人: 汪敏;严妍;肖国泉;裴非;肖克;彭祖剑;邵罗树;刘茼;郭宇峰;杜寅辰;张博 申请(专利权)人: 开普云信息科技股份有限公司;北京开普云信息科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 523000 广东省东莞市石龙镇中*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 算法 识别 抽取 图片 方法 装置
【说明书】:

发明提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。

技术领域

本发明涉及图片处理技术领域,尤其涉及基于深度学习和并查集算法识别并抽取图片的方法及装置。

背景技术

OCR,(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

目前,在开源框架中,针对PDF文档,现有OCR技术都是基于对文档中的文本和图片进行简单的代码解析,利用文档结构树(Document Tree)进行内容解析,但识别率不高,效果不理想。比如PyMuPDF、PDFMiner3K。并且,对于加密的PDF文档,以及图片效果不清晰、不规范和旧式图片格式的PDF文档,其识别率非常差,无法满足业务需求,具有很大局限性。因此,如何除错、利用辅助信息提高识别正确率,是OCR最重要的研究课题。

发明内容

本发明为了弥补现有技术的不足,提供一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,该技术将深度学习算法与并查集分类算法相融合,解决了OCR识别图像的低准确度和高错误率问题,实现更准确、更全面、更快速地抽取图片的效果。

本发明的实施例是这样实现的:

第一方面,本发明实施例提供了一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,应用于服务器,实现步骤如下:

读取PDF文档,将PDF文档中每一页转化为特定的图片格式;采用深度学习算法对图片进行OCR处理,得到文本信息(BOX);运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落(Paragrame),利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。

进一步地,按照深度学习规则对图片进行OCR处理是指:从特征样本库中取一个样本图片输入到卷积神经网络中,初始化参数后进行卷积和下采样,经前向传播变换和计算相应的实际输出,计算实际输出与期望输出的差,按极小化误差的学习方法反向传播进行增强和逻辑回归,根据误差反馈和权值更新调整权值矩阵,最后输出符合期望的结果以构建文本识别模型。之后,用可训练的文本识别模型去卷积输入PDF图片的特征,得到初步提取特征图,将初步提取特征图片域中一组像素通过池化变为一个像素单元,得到主要特征映射图,将映射图向量化后乘以优化的权值矩阵进行组装,通过激活函数进行分类,输出文本信息(BOX)。

进一步地,运用并查集分类算法对文本信息进行抽取是指:根据文本信息计算出平均的字高和平均的段落间隔,设置两行之间是否同行的判别标准和段落间隔,构建判定函数,代入逻辑参数(字高、段落间隔等)计算布尔值,根据返回的布尔值判断是否同行,最后得到段落分类。

进一步地,深度学习规则包括梯度下降规则、反向传播学习规则、Delta(Wdrow-Holf)学习规则,其中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于开普云信息科技股份有限公司;北京开普云信息科技有限公司,未经开普云信息科技股份有限公司;北京开普云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010919839.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top