[发明专利]一种基于双通路混合卷积网络的文档对象分类方法在审
| 申请号: | 201911180193.2 | 申请日: | 2019-11-27 |
| 公开(公告)号: | CN111062264A | 公开(公告)日: | 2020-04-24 |
| 发明(设计)人: | 张盛峰;田朝阳;黄胜;贾艳秋 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 400065*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 通路 混合 卷积 网络 文档 对象 分类 方法 | ||
1.一种基于双通路混合卷积网络的文档对象分类方法,其特征在于,分为模型训练和模型调用两个内容,其中模型调用省略了模型训练的一部分步骤,包括如下步骤,该步骤默认为模型训练:
步骤1,对输入图片进行多模式匹配递归RLSA分析确定分割坐标;
步骤2,根据步骤1的分割坐标把输入彩色图片分割为一个个包含不同逻辑对象的区域图片,如果是模型调用则直接把区域图片传送到步骤6的双通路混合分类网络进行作为输入;
步骤3,根据数据集注释对区域进行标签标记,并进行去除噪声和均衡处理,得到包含区域图片的分类数据集,如果是模型调用则忽略此步骤;
步骤4,把处理好的数据集的二维彩色区域图片送入到二维CNN中进行训练,保存训练数据,作为双通路混合分类网络的二维特征提取器,如果是模型调用则忽略此步骤;
步骤5,把二维图片提取其两方向投影,合并为一维数据送入到一维CNN网络进行训练,保存训练数据,作为双通路混合分类网络的一维特征提取器,如果是模型调用则忽略此步骤;
步骤6,利用步骤5和6中训练的卷积网络模型的前七层作为特征提取器,把提取到的特征数据作为双通路分类网络的输入,组成双通路混合分类网络,对该网络进行最后的分类训练,保存训练数据,得到最终的训练模型。
2.根据权利要求1所述的步骤1所述的方法,其特征在于,对投影数据进行三值化,表示三个不同的状态,且根据这些状态辨别不同的情况实行不同的分割规则,包括如下子步骤:
步骤1-1,对原始图片对图片灰度化,二值化处理,并用该图片的对角线的坐标初始化区域坐标库,这时坐标库中只有一个区域,就是原始图片;
步骤1-2,依次按照坐标库载入区域图片作为输入图片,对输入图片进行水平方向上的投影和分割,具体可分为如下步骤;
步骤1-2-1,统计水平方向上的黑色像素点数量,根据黑像素数目分布的不同分成三个等级,分别用0,1,2表示,其中0表示空白或者接近空白,1代表有少量黑像素分布,2代表有大量黑像素分布,把统计结果保存到一个一维数组中;
步骤1-2-2,从头遍历数组,根据数组中每个值的不同等级,分为三个状态,用sta0,sta1,sta2表示,对应步骤1-2-1中的三个等级,而处于sta1或sta2,又可表示为stab,表示黑色状态,又根据不同状态之间的跳变确定每个状态维持的长度,分别记为sta0_h,sta2_h,stab_h,具体分为以下几种规则,其中min_cut_blank代表最小分界空白高度,min_txt代表最小文本行高度,max_contian_blank表示最大包含空白高度,formula_line表示公式线高度:
1)两个分割点之间的stab_h确定为黑色块;
2)数组的开始和结束且处于stab状态,自动作为分割点;
3)如果sta0_hmin_cut_blank,则直接标记相邻的stab为分割点;
4)如果sta2_h=formula_line,且两边的sta0_h=max_contian_blank,则识别为公式结构,与前后的已确定分割点的黑色块进行融合;
5)如果stab_hmin_txt,且与其相邻的sta0_hmax_contian_blank,则直接把该状态两端stab标记为可分割,此块为黑色块;
6)如果stab_hmin_txt,且两端存在sta0_h=max_contian_blank,则匹配为父结构,与满足条件一端的子结构进行融合,否则该端的stab标记为分割点;
7)如果stab_h=min_txt,且两端存在sta0_h=max_contian_blank,则匹配为子结构,与满足条件一端的黑色块进行融合,否则该端的stab标记为分割点;
步骤1-2-3,根据所有的分割点对图片的各个区域坐标进行更新,保存到区域坐标库中;
步骤1-3,依次按照坐标库载入区域图片作为输入图片,对输入图片进行垂直方向上的投影和分割,垂直方向上的投影相对于水平方向上要简单的的多,具体可分为如下步骤:
步骤1-3-1,统计垂直方向上的黑像素点数量,保存为一个一维的数组,根据黑像素数目分布的不同分成两个等级,分别用0,1表示,其中0表示空白或者接近空白,1代表有像素分布,进入步骤1-3-2;
步骤1-3-2,从头遍历数组,根据数组中每个值的不同等级,分为两个状态,分别为staw白状态,和stab黑状态,又根据不同状态之间的跳变确定每个状态维持的长度,其维持长度分别用staw_h和stab_h表示,具体分为以下几种规则,其中h_min_cut_blank表示水平最小可分割空白高度:
1)两个分割点之间的stab_h确定为黑色块;
2)数组开始和结束且处于stab状态,自动作为分割点;
3)stab_hh_min_cut_blank,触发分割模式,标记两端的stab为分割点;
步骤1-3-3,根据所有的分割点对图片的各个区域坐标进行更新,保存到区域坐标库中;
步骤1-4,对分割后的每个区域重复步骤1-2和步骤1-3,直到该区域高度小于最小文本行高度,或者连续该区域坐标没有更新,则跳过该区域;
步骤1-5,如果所有的区域都已经不能再分割,则把保存的所有区域的坐标库传入步骤2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911180193.2/1.html,转载请声明来源钻瓜专利网。





