[发明专利]一种基于双通路混合卷积网络的文档对象分类方法在审

申请号：	201911180193.2	申请日：	2019-11-27
公开（公告）号：	CN111062264A	公开（公告）日：	2020-04-24
发明（设计）人：	张盛峰;田朝阳;黄胜;贾艳秋	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	400065***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于通路混合卷积网络文档对象分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双通路混合卷积网络的文档对象分类方法，其特征在于，分为模型训练和模型调用两个内容，其中模型调用省略了模型训练的一部分步骤，包括如下步骤，该步骤默认为模型训练：

步骤1，对输入图片进行多模式匹配递归RLSA分析确定分割坐标；

步骤2，根据步骤1的分割坐标把输入彩色图片分割为一个个包含不同逻辑对象的区域图片，如果是模型调用则直接把区域图片传送到步骤6的双通路混合分类网络进行作为输入；

步骤3，根据数据集注释对区域进行标签标记，并进行去除噪声和均衡处理，得到包含区域图片的分类数据集，如果是模型调用则忽略此步骤；

步骤4，把处理好的数据集的二维彩色区域图片送入到二维CNN中进行训练，保存训练数据，作为双通路混合分类网络的二维特征提取器，如果是模型调用则忽略此步骤；

步骤5，把二维图片提取其两方向投影，合并为一维数据送入到一维CNN网络进行训练，保存训练数据，作为双通路混合分类网络的一维特征提取器，如果是模型调用则忽略此步骤；

步骤6，利用步骤5和6中训练的卷积网络模型的前七层作为特征提取器，把提取到的特征数据作为双通路分类网络的输入，组成双通路混合分类网络，对该网络进行最后的分类训练，保存训练数据，得到最终的训练模型。

2.根据权利要求1所述的步骤1所述的方法，其特征在于，对投影数据进行三值化，表示三个不同的状态，且根据这些状态辨别不同的情况实行不同的分割规则，包括如下子步骤：

步骤1-1，对原始图片对图片灰度化，二值化处理，并用该图片的对角线的坐标初始化区域坐标库，这时坐标库中只有一个区域，就是原始图片；

步骤1-2，依次按照坐标库载入区域图片作为输入图片，对输入图片进行水平方向上的投影和分割，具体可分为如下步骤；

步骤1-2-1，统计水平方向上的黑色像素点数量，根据黑像素数目分布的不同分成三个等级，分别用0，1，2表示，其中0表示空白或者接近空白，1代表有少量黑像素分布，2代表有大量黑像素分布，把统计结果保存到一个一维数组中；

步骤1-2-2，从头遍历数组，根据数组中每个值的不同等级，分为三个状态，用sta0，sta1，sta2表示，对应步骤1-2-1中的三个等级，而处于sta1或sta2，又可表示为stab，表示黑色状态，又根据不同状态之间的跳变确定每个状态维持的长度，分别记为sta0_h，sta2_h，stab_h，具体分为以下几种规则，其中min_cut_blank代表最小分界空白高度，min_txt代表最小文本行高度，max_contian_blank表示最大包含空白高度，formula_line表示公式线高度：

1)两个分割点之间的stab_h确定为黑色块；

2)数组的开始和结束且处于stab状态，自动作为分割点；

3)如果sta0_hmin_cut_blank，则直接标记相邻的stab为分割点；

4)如果sta2_h＝formula_line，且两边的sta0_h＝max_contian_blank，则识别为公式结构，与前后的已确定分割点的黑色块进行融合；

5)如果stab_hmin_txt，且与其相邻的sta0_hmax_contian_blank，则直接把该状态两端stab标记为可分割，此块为黑色块；

6)如果stab_hmin_txt，且两端存在sta0_h＝max_contian_blank，则匹配为父结构，与满足条件一端的子结构进行融合，否则该端的stab标记为分割点；

7)如果stab_h＝min_txt，且两端存在sta0_h＝max_contian_blank，则匹配为子结构，与满足条件一端的黑色块进行融合，否则该端的stab标记为分割点；

步骤1-2-3，根据所有的分割点对图片的各个区域坐标进行更新，保存到区域坐标库中；

步骤1-3，依次按照坐标库载入区域图片作为输入图片，对输入图片进行垂直方向上的投影和分割，垂直方向上的投影相对于水平方向上要简单的的多，具体可分为如下步骤：

步骤1-3-1，统计垂直方向上的黑像素点数量，保存为一个一维的数组，根据黑像素数目分布的不同分成两个等级，分别用0，1表示，其中0表示空白或者接近空白，1代表有像素分布，进入步骤1-3-2；

步骤1-3-2，从头遍历数组，根据数组中每个值的不同等级，分为两个状态，分别为staw白状态，和stab黑状态，又根据不同状态之间的跳变确定每个状态维持的长度，其维持长度分别用staw_h和stab_h表示，具体分为以下几种规则，其中h_min_cut_blank表示水平最小可分割空白高度：

1)两个分割点之间的stab_h确定为黑色块；

2)数组开始和结束且处于stab状态，自动作为分割点；

3)stab_hh_min_cut_blank，触发分割模式，标记两端的stab为分割点；

步骤1-3-3，根据所有的分割点对图片的各个区域坐标进行更新，保存到区域坐标库中；

步骤1-4，对分割后的每个区域重复步骤1-2和步骤1-3，直到该区域高度小于最小文本行高度，或者连续该区域坐标没有更新，则跳过该区域；

步骤1-5，如果所有的区域都已经不能再分割，则把保存的所有区域的坐标库传入步骤2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911180193.2/1.html，转载请声明来源钻瓜专利网。

上一篇：用于提供搜索结果的方法、系统和介质
下一篇：脑结构特征选择方法、移动终端及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双通路混合卷积网络的文档对象分类方法在审

专利文献下载