[发明专利]基于深度学习和并查集算法识别并抽取图片的方法及装置有效
| 申请号: | 202010919839.0 | 申请日: | 2020-09-04 |
| 公开(公告)号: | CN112149523B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 汪敏;严妍;肖国泉;裴非;肖克;彭祖剑;邵罗树;刘茼;郭宇峰;杜寅辰;张博 | 申请(专利权)人: | 开普云信息科技股份有限公司;北京开普云信息科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 523000 广东省东莞市石龙镇中*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 算法 识别 抽取 图片 方法 装置 | ||
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于,应用于服务器,包括如下步骤:
S101、读取PDF文档;
S102、把PDF文档中每一页转化为特定的图片格式;
S103、采用深度学习算法对图片进行OCR处理,输出文本信息BOX;
S104、运用并查集分类算法对文本信息进行抽取,得到段落分类;
S105、对段落分类进行筛选,得到纯文本段落;
S106、利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;
S107、对TMP格式图片做像素横纵扫描找到分割线;
S108、利用OpenCV对分割线进行图片切分,得到最终图片;
其中,S105中所述对段落分类进行筛选是指:对PDF图片中正文文本和注释文本进行区分,筛选出正文文本;所述正文文本的区分标准是:文本长度大于特定个数字符,文本前特定个数字符没有Figure标签;
其中,S108中所述“最终图片”包括注释文本和抽取出的图片。
2.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S103进一步包括以下步骤:
S1031、对PDF图片和样本图片进行预处理;
S1032、对预处理后PDF图片和样本图片进行卷积、下采样和分类,提取特征;
S1033、按照深度学习规则对样本图片的特征进行机器训练,根据学习训练结果构建文本识别模型;
S1034、将PDF图片的特征带入文本识别模型进行匹配;
S1035、输出文本信息BOX。
3.如权利要求2所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:S1032、S1033、S1034中所述特征包括字符和文字序列,采用深度学习算法、OCR能有效检测文字区域,准确切分和识别文字序列,进而分析语义并理解版面,最终输出格式化的文本信息。
4.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S104进一步包括以下步骤:
S1041、对文本信息进行计算,计算出平均的字高和平均的段落间隔;
S1042、设置两行之间是否同行的判别标准;
S1043、设置段落间隔;
S1044、构建判定函数,代入字高、段落间隔逻辑参数计算布尔值;
S1045、判断布尔值;
S1046、得到段落分类。
5.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述并查集分类算法包括Set函数和Sum函数,所述Set函数是把某个元素放在某个集合中;所述Sum函数是返回数组,包含所有集合和集合中所有的元素。
6.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述文本长度大于50个字符,文本前6个字符没有Figure标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于开普云信息科技股份有限公司;北京开普云信息科技有限公司,未经开普云信息科技股份有限公司;北京开普云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010919839.0/1.html,转载请声明来源钻瓜专利网。





