[发明专利]基于深度学习和并查集算法识别并抽取图片的方法及装置有效
| 申请号: | 202010919839.0 | 申请日: | 2020-09-04 |
| 公开(公告)号: | CN112149523B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 汪敏;严妍;肖国泉;裴非;肖克;彭祖剑;邵罗树;刘茼;郭宇峰;杜寅辰;张博 | 申请(专利权)人: | 开普云信息科技股份有限公司;北京开普云信息科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 523000 广东省东莞市石龙镇中*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 算法 识别 抽取 图片 方法 装置 | ||
本发明提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。
技术领域
本发明涉及图片处理技术领域,尤其涉及基于深度学习和并查集算法识别并抽取图片的方法及装置。
背景技术
OCR,(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
目前,在开源框架中,针对PDF文档,现有OCR技术都是基于对文档中的文本和图片进行简单的代码解析,利用文档结构树(Document Tree)进行内容解析,但识别率不高,效果不理想。比如PyMuPDF、PDFMiner3K。并且,对于加密的PDF文档,以及图片效果不清晰、不规范和旧式图片格式的PDF文档,其识别率非常差,无法满足业务需求,具有很大局限性。因此,如何除错、利用辅助信息提高识别正确率,是OCR最重要的研究课题。
发明内容
本发明为了弥补现有技术的不足,提供一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,该技术将深度学习算法与并查集分类算法相融合,解决了OCR识别图像的低准确度和高错误率问题,实现更准确、更全面、更快速地抽取图片的效果。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供了一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,应用于服务器,实现步骤如下:
读取PDF文档,将PDF文档中每一页转化为特定的图片格式;采用深度学习算法对图片进行OCR处理,得到文本信息(BOX);运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落(Paragrame),利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。
进一步地,按照深度学习规则对图片进行OCR处理是指:从特征样本库中取一个样本图片输入到卷积神经网络中,初始化参数后进行卷积和下采样,经前向传播变换和计算相应的实际输出,计算实际输出与期望输出的差,按极小化误差的学习方法反向传播进行增强和逻辑回归,根据误差反馈和权值更新调整权值矩阵,最后输出符合期望的结果以构建文本识别模型。之后,用可训练的文本识别模型去卷积输入PDF图片的特征,得到初步提取特征图,将初步提取特征图片域中一组像素通过池化变为一个像素单元,得到主要特征映射图,将映射图向量化后乘以优化的权值矩阵进行组装,通过激活函数进行分类,输出文本信息(BOX)。
进一步地,运用并查集分类算法对文本信息进行抽取是指:根据文本信息计算出平均的字高和平均的段落间隔,设置两行之间是否同行的判别标准和段落间隔,构建判定函数,代入逻辑参数(字高、段落间隔等)计算布尔值,根据返回的布尔值判断是否同行,最后得到段落分类。
进一步地,深度学习规则包括梯度下降规则、反向传播学习规则、Delta(Wdrow-Holf)学习规则,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于开普云信息科技股份有限公司;北京开普云信息科技有限公司,未经开普云信息科技股份有限公司;北京开普云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010919839.0/2.html,转载请声明来源钻瓜专利网。





