[发明专利]基于多通路卷积神经网络的图像分类方法及系统有效
申请号: | 201710633647.1 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107316066B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 王瑜;朱婷;张娜;肖洪兵 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100048 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 通路 卷积 神经网络 图像 分类 方法 系统 | ||
1.一种基于多通路卷积神经网络的图像分类方法,其特征在于,包括以下步骤:
输入待分类图像;
对所述待分类图像进行分块,以在所述待分类图像上得到多个图像块;
设计多通路CNN模型,所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路,其中,所述局部特征提取通路包括第一卷积块和第二卷积块,所述第一卷积块和第二卷积块均包含三个连续的卷积层,所述第一卷积块的一个卷积层输入为33*33*3,所述第一卷积块的另外两个输入均为33*33*64,所述第二卷积块三个卷积层输入均为16*16*128,所有卷积层的卷积核大小均为3*3,且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等,以及所述卷积层输出的FMs隔层串联,卷积块之后是池化层,最大池化层的池化窗口均为3*3,最大池化层的滑动步长均为2;所述全局特征提取通路包括第三卷积块,所述第三卷积块包含三个连续的卷积层,三个卷积层的输入形式分别为33*33*3,25*25*120,17*17*120,输出形式分别是25*25*120,17*17*120,9*9*250,所有卷积层的激活函数均为LReLU函数,LReLU函数形式为其中,yi表示该函数的输入,ai表示斜率,分类层的激活函数为softmax函数,输出是属于各种类的概率,取最大概率的类别为图像块的类别,所有卷积层的卷积核大小均为9*9,且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250,以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为:C=M-N+1,其中,C×C为所述卷积层输出的FMs尺度,M×M为卷积层输入的FMs尺度,N×N为卷积核的尺度;在局部通路上,施加给卷积层权重的正则项均为在全局通路上,三个卷积层后面均采用Dropout正则化方法;
对训练图像进行分块,以在所述训练图像上得到多个训练图像块;
根据所述多通路CNN模型和所述多个训练图像块进行模型训练,以生成CNN分类模型,其中,根据所述CNN分类模型选择所述多个图像块的尺度,根据所述多通路CNN模型和所述多个训练图像块进行模型训练,进一步包括:利用EarlyStopping控制训练过程,以在训练过程中,验证集的精确度不再提高或者训练轮次达到最大时,终止模型训练,具体地:步骤A51:模型参数初始化,卷积层与全连接层中权重的初始化方式均为Xavier正态分布初始化法,偏置向量的初始化方式为全零初始化;步骤A52:调整模型的权重,训练模型时,采用SGD优化模型,使用Keras深度学习框架,SGD的参数设置形式为sgd=SGD(lr=lr_base,momentum=0.9,nesterov=True),采用变化的学习率函数为其中,SGD(·)为Keras深度学习框架中的SGD的函数,momentum为动量参数,nesterov=True表示使用nesterov动量,lr为每一轮训练的学习率,lr_base表示开始训练时的学习率,epoch为训练的轮次,epoches为设置的训练总轮数,lr_power为设置的指数参数;步骤A53:设置训练的终止条件,模型训练过程中使用EarlyStopping方法;当验证集的精确度不再提高时,或者当训练次数达到设定的最大值时,训练过程自动终;步骤A54:保存训练好的模型,当训练终止后,保存训练好的模型:包括保存模型权重、模型结构信息和模型结构图,保存模型权重的文件类型为.hdf、模型结构信息的文件类型为.json、模型结构图的文件类型为.png;以及
根据所述多个图像块通过所述CNN分类模型得到图像分类结果。
2.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法,其特征在于,所述设计多通路CNN模型,进一步包括:对所述多通路CNN模型使用正则项,其中,
在所述局部特征提取通路上,对所述局部特征提取通路的每个卷积层的权重施加正则项l2:
其中,C表示有正则项的代价函数,C0表示原始代价函数,正则项l2为λ表示正则项的系数,n表示训练样本数,w表示卷积层权重;
在所述全局特征提取通路上,使用Dropout正则化方法,以在训练模型时,随机按比例保留所述全局特征提取通路的卷积层的预设节点的权重。
3.一种基于多通路卷积神经网络的图像分类系统,其特征在于,包括:
输入模块,用于输入待分类图像;
第一分块模块,用于对所述待分类图像进行分块,以在所述待分类图像上得到多个图像块;
设计模块,用于设计多通路CNN模型,所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路,其中,所述局部特征提取通路包括第一卷积块和第二卷积块,所述第一卷积块和第二卷积块均包含三个连续的卷积层,所述第一卷积块的一个卷积层输入为33*33*3,所述第一卷积块的另外两个输入均为33*33*64,所述第二卷积块三个卷积层输入均为16*16*128,所有卷积层的卷积核大小均为3*3,且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等,以及所述卷积层输出的FMs隔层串联,卷积块之后是池化层,最大池化层的池化窗口均为3*3,最大池化层的滑动步长均为2;所述全局特征提取通路包括第三卷积块,所述第三卷积块包含三个连续的卷积层,三个卷积层的输入形式分别为33*33*3,25*25*120,17*17*120,输出形式分别是25*25*120,17*17*120,9*9*250,所有卷积层的激活函数均为LReLU函数,LReLU函数形式为其中,yi表示该函数的输入,ai表示斜率,分类层的激活函数为softmax函数,输出是属于各种类的概率,取最大概率的类别为图像块的类别,所有卷积层的卷积核大小均为9*9,且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250,以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为:C=M-N+1,其中,C×C为所述卷积层输出的FMs尺度,M×M为卷积层输入的FMs尺度,N×N为卷积核的尺度;在局部通路上,施加给卷积层权重的正则项均为在全局通路上,三个卷积层后面均采用Dropout正则化方法;
第二分块模块,用于对训练图像进行分块,以在所述训练图像上得到多个训练图像块;
训练模块,用于根据所述多通路CNN模型和所述多个训练图像块进行模型训练,以生成CNN分类模型,其中,根据所述CNN分类模型选择所述多个图像块的尺度,所述训练模块进一步用于利用EarlyStopping控制训练过程,以在训练过程中,验证集的精确度不再提高或者训练轮次达到最大时,终止模型训练,具体地:步骤A51:模型参数初始化,卷积层与全连接层中权重的初始化方式均为Xavier正态分布初始化法,偏置向量的初始化方式为全零初始化;步骤A52:调整模型的权重,训练模型时,采用SGD优化模型,使用Keras深度学习框架,SGD的参数设置形式为sgd=SGD(lr=lr_base,momentum=0.9,nesterov=True),采用变化的学习率函数为其中,SGD(·)为Keras深度学习框架中的SGD的函数,momentum为动量参数,nesterov=True表示使用nesterov动量,lr为每一轮训练的学习率,lr_base表示开始训练时的学习率,epoch为训练的轮次,epoches为设置的训练总轮数,lr_power为设置的指数参数;步骤A53:设置训练的终止条件,模型训练过程中使用EarlyStopping方法;当验证集的精确度不再提高时,或者当训练次数达到设定的最大值时,训练过程自动终;步骤A54:保存训练好的模型,当训练终止后,保存训练好的模型:包括保存模型权重、模型结构信息和模型结构图,保存模型权重的文件类型为.hdf、模型结构信息的文件类型为.json、模型结构图的文件类型为.png;以及
分类模块,用于根据所述多个图像块通过所述CNN分类模型得到图像分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710633647.1/1.html,转载请声明来源钻瓜专利网。