[发明专利]一种基于双通路混合卷积网络的文档对象分类方法在审
申请号: | 201911180193.2 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111062264A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 张盛峰;田朝阳;黄胜;贾艳秋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通路 混合 卷积 网络 文档 对象 分类 方法 | ||
本发明提供了一种基于双通路混合卷积网络的文档对象分类方法,用于实现对文档图片中各个逻辑对象(文本、公式、表格、图像)的分割与分类。其方案为,首先对输入图片进行多模式匹配递归RLSA分析确定分割坐标;然后根据分割坐标把输入图片分割为不同的逻辑区域;再对区域进行标签标记,噪声去除和类别均衡处理,得到分类数据集;接着把二维图区域片送入到二维CNN训练,把该图片提取其两方向投影送入到一维CNN网络训练;最后用这两个卷积网络前七层作为特征提取器,通过双通路混合分类网络进行最终模型的训练,利用该模型可预测出区域图片的对象类别;本发明分别利用原始二维图片和其两方向投影的作为输入,利用了不同特征,提高了分类精度。
技术领域
本发明涉及文档对象检测识别领域,特别涉及一种基于双通路混合卷积网络的文档对象分类方法。
背景技术
随着近几年机器学习和深度学习的蓬勃发展,文档图片理解(Document ImageUnderstanding,DIU)技术得到了越来越多人的关注。文档图片理解,顾名思义,就是从文档图片中理解其内容。文档图片理解具体可分为页面分割(也叫区域分割),区域分类(也叫块标记)和文档对象识别等步骤,其中本发明就对应前两个步骤,即文档对象检测和识别。
目前的页面分割技术从步骤上可以分为两种,一种是基于像素处理的方法,即根据图片中的像素的分布情况制定一系列的规则分割不同的区域块,具体有投影分析,RLSA(Run Length Smoothing Algorithm,游程平滑算法)分析(Cesarini F,Lastri M,MarinaiS,et al. Encoding ofModifiedX-YTrees for Document Classification[C]//2001.),空白分析,连通域提取等方法;另一种就是利用深度学习网络的物体检测算法,例如滑动窗口,随机搜索算法等,主要是利用穷举的方法遍历所有的窗口选取得分最大的窗口。优点是泛化行比较强,缺点是针对文本对象检测的数据集比较小,且准确率比较低。
但是目前的基于学习的方法缺乏大量的数据集支撑,准确率比较低;而现有的基于规则的算法中,投影分析和RLSA分析都是把投影数据二值化,没有区分更复杂的像素分布情况;空白分析和RLSA分析也仅仅是依靠连续的游程长度进行判断,没有区分不同结构特点;而连通域提取要进行像素腐蚀和膨胀处理,不能有效的分割出单行文本。
区域分类的方法一般分为两种,就是基于深度学习的和基于规则。基于规则的是比较传统的方法,主要有基于同质域,基于颜色分布,基于形态学对比的方法等。其中基于同质域的方法是根据自己定义的规则计算每个区域的像素分布情况,然后通过一定的算法计算两个区域的差异性指标,最后利用阈值来进行判别。基于颜色分布就是根据背景与前景以及不同类别之间的像素颜色分布的不同进行分类。基于形态学对比的方法就是从提取的连通域与特定的字符(公式符号)或者结构(表格边框)进行对比,以确定其类别。基于深度学习的方法主要是训练不同的CNN卷积神经网络(Yi X,Gao L,Liao Y,et al.CNN BasedPage Object Detection in Document Images[C]//201714th IAPR InternationalConference on Document Analysis and Recognition(ICDAR).IEEE,2017.)进行分类,其中现有常用网络主要有LeNet、 AlexNet(Krizhevsky A,Sutskever I,Hinton G.ImageNetClassification with Deep Convolutional Neural Networks[C]//NIPS.CurranAssociates Inc.2012.)、ZFNet、VGGNet等小型网络。
但是基于规则的分类方法一般都是针对不同的文档类型设计不同的规则,泛化性比较差,而且规则的制定依赖于经验,对结果影响比较大。而现有的深度学习的方法,仅仅是对二维图片的二维特征大量的提取和计算,忽略了文档的一维分布特征,例如在水平和垂直方向上的分布特点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911180193.2/2.html,转载请声明来源钻瓜专利网。