[发明专利]基于多通路卷积神经网络的图像分类方法及系统有效

申请号：	201710633647.1	申请日：	2017-07-28
公开（公告）号：	CN107316066B	公开（公告）日：	2021-01-01
发明（设计）人：	王瑜;朱婷;张娜;肖洪兵	申请（专利权）人：	北京工商大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张润
地址：	100048 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于通路卷积神经网络图像分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多通路卷积神经网络的图像分类方法，其特征在于，包括以下步骤：

输入待分类图像；

对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；

设计多通路CNN模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路，其中，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，所述第一卷积块的一个卷积层输入为33*33*3，所述第一卷积块的另外两个输入均为33*33*64，所述第二卷积块三个卷积层输入均为16*16*128，所有卷积层的卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联，卷积块之后是池化层，最大池化层的池化窗口均为3*3，最大池化层的滑动步长均为2；所述全局特征提取通路包括第三卷积块，所述第三卷积块包含三个连续的卷积层，三个卷积层的输入形式分别为33*33*3，25*25*120，17*17*120，输出形式分别是25*25*120，17*17*120，9*9*250，所有卷积层的激活函数均为LReLU函数，LReLU函数形式为其中，y_i表示该函数的输入，a_i表示斜率，分类层的激活函数为softmax函数，输出是属于各种类的概率，取最大概率的类别为图像块的类别，所有卷积层的卷积核大小均为9*9，且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为：C＝M-N+1，其中，C×C为所述卷积层输出的FMs尺度，M×M为卷积层输入的FMs尺度，N×N为卷积核的尺度；在局部通路上，施加给卷积层权重的正则项均为在全局通路上，三个卷积层后面均采用Dropout正则化方法；

对训练图像进行分块，以在所述训练图像上得到多个训练图像块；

根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型，其中，根据所述CNN分类模型选择所述多个图像块的尺度，根据所述多通路CNN模型和所述多个训练图像块进行模型训练，进一步包括：利用EarlyStopping控制训练过程，以在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止模型训练，具体地：步骤A51：模型参数初始化，卷积层与全连接层中权重的初始化方式均为Xavier正态分布初始化法，偏置向量的初始化方式为全零初始化；步骤A52：调整模型的权重，训练模型时，采用SGD优化模型，使用Keras深度学习框架，SGD的参数设置形式为sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)，采用变化的学习率函数为其中，SGD(·)为Keras深度学习框架中的SGD的函数，momentum为动量参数，nesterov＝True表示使用nesterov动量，lr为每一轮训练的学习率，lr_base表示开始训练时的学习率，epoch为训练的轮次，epoches为设置的训练总轮数，lr_power为设置的指数参数；步骤A53：设置训练的终止条件，模型训练过程中使用EarlyStopping方法；当验证集的精确度不再提高时，或者当训练次数达到设定的最大值时，训练过程自动终；步骤A54：保存训练好的模型，当训练终止后，保存训练好的模型：包括保存模型权重、模型结构信息和模型结构图，保存模型权重的文件类型为.hdf、模型结构信息的文件类型为.json、模型结构图的文件类型为.png；以及

根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

2.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法，其特征在于，所述设计多通路CNN模型，进一步包括：对所述多通路CNN模型使用正则项，其中，

在所述局部特征提取通路上，对所述局部特征提取通路的每个卷积层的权重施加正则项l2：

其中，C表示有正则项的代价函数，C₀表示原始代价函数，正则项l2为λ表示正则项的系数，n表示训练样本数，w表示卷积层权重；

在所述全局特征提取通路上，使用Dropout正则化方法，以在训练模型时，随机按比例保留所述全局特征提取通路的卷积层的预设节点的权重。

3.一种基于多通路卷积神经网络的图像分类系统，其特征在于，包括：

输入模块，用于输入待分类图像；

第一分块模块，用于对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；

设计模块，用于设计多通路CNN模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路，其中，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，所述第一卷积块的一个卷积层输入为33*33*3，所述第一卷积块的另外两个输入均为33*33*64，所述第二卷积块三个卷积层输入均为16*16*128，所有卷积层的卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联，卷积块之后是池化层，最大池化层的池化窗口均为3*3，最大池化层的滑动步长均为2；所述全局特征提取通路包括第三卷积块，所述第三卷积块包含三个连续的卷积层，三个卷积层的输入形式分别为33*33*3，25*25*120，17*17*120，输出形式分别是25*25*120，17*17*120，9*9*250，所有卷积层的激活函数均为LReLU函数，LReLU函数形式为其中，y_i表示该函数的输入，a_i表示斜率，分类层的激活函数为softmax函数，输出是属于各种类的概率，取最大概率的类别为图像块的类别，所有卷积层的卷积核大小均为9*9，且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为：C＝M-N+1，其中，C×C为所述卷积层输出的FMs尺度，M×M为卷积层输入的FMs尺度，N×N为卷积核的尺度；在局部通路上，施加给卷积层权重的正则项均为在全局通路上，三个卷积层后面均采用Dropout正则化方法；

第二分块模块，用于对训练图像进行分块，以在所述训练图像上得到多个训练图像块；

训练模块，用于根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型，其中，根据所述CNN分类模型选择所述多个图像块的尺度，所述训练模块进一步用于利用EarlyStopping控制训练过程，以在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止模型训练，具体地：步骤A51：模型参数初始化，卷积层与全连接层中权重的初始化方式均为Xavier正态分布初始化法，偏置向量的初始化方式为全零初始化；步骤A52：调整模型的权重，训练模型时，采用SGD优化模型，使用Keras深度学习框架，SGD的参数设置形式为sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)，采用变化的学习率函数为其中，SGD(·)为Keras深度学习框架中的SGD的函数，momentum为动量参数，nesterov＝True表示使用nesterov动量，lr为每一轮训练的学习率，lr_base表示开始训练时的学习率，epoch为训练的轮次，epoches为设置的训练总轮数，lr_power为设置的指数参数；步骤A53：设置训练的终止条件，模型训练过程中使用EarlyStopping方法；当验证集的精确度不再提高时，或者当训练次数达到设定的最大值时，训练过程自动终；步骤A54：保存训练好的模型，当训练终止后，保存训练好的模型：包括保存模型权重、模型结构信息和模型结构图，保存模型权重的文件类型为.hdf、模型结构信息的文件类型为.json、模型结构图的文件类型为.png；以及

分类模块，用于根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710633647.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种采摘机器人的堆叠蘑菇快速识别方法
下一篇：离线同步的二维码防伪方法、防伪验证方法及防伪装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多通路卷积神经网络的图像分类方法及系统有效

专利文献下载