[发明专利]基于深度学习的特定物品发现方法在审
| 申请号: | 201811444686.8 | 申请日: | 2018-11-29 |
| 公开(公告)号: | CN109522969A | 公开(公告)日: | 2019-03-26 |
| 发明(设计)人: | 凌志辉;俞旸;徐中恒 | 申请(专利权)人: | 南京云思创智信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
| 地址: | 210042 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 损失函数 算法 图像分类 交叉熵 欧式距离 神经网络 学习算法 神经网 数据集 发现 卷积 学习 网络 | ||
1.一种基于深度学习的特定物品发现方法,其特征在于,它包括步骤:
步骤1:构建数据集中的类别信息,首先收集需要分类的图片,其次给每个图片标注其所属于的类别;
步骤2:构建数据集中的位置信息,在步骤1收集的数据集图片里,标注出物体所在的方框,给出方框的左上坐标(x,y)以及方框长宽w,h;
步骤3:构建深度卷积神经网络中的特征提取模块;
步骤4:构建深度卷积神经网络中的损失函数模块;
步骤5:训练神经网络,以步骤4中的两个损失函数的和为目标使用反向传播训练深度卷积神经网络的参数,两个损失函数的值都参与网络参数的训练迭代;
步骤6:使用神经网络,用训练好的模型进行预测,输出目标的类别分布和位置信息,仅使用类别分布来输出预测的类别。
2.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤3中,使用深度卷积神经网络VGG16模型里的叠加卷积池化部分作为特征提取模块,VGG16模型里的叠加卷积池化部分的架构是:
第一层:输入层,输入的参数大小为(224,224,3);
第二层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1),过滤器大小=(3,3);
第三层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1)过滤器大小=(3,3);
第四层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第五层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第六层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第七层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第八层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第九层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十一层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第十二层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十三层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十四层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3)。
3.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤4中,需要构建两个损失函数,损失函数1为计算交叉熵的图像分类损失函数,损失函数2为计算平均L2距离(Mean Squared Error)的图片位置信息损失函数,损失函数为2个损失函数的和:
1.交叉熵损失函数:
2.L2损失函数:
。
4.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤5中,深度卷积神经网络的参数初始值由正态分布随机初始化,正态分布的参数为Mean=0,Variance=1;初始化的参数需依照Xavier方法乘以Xavier Initialization系数;XavierInitialization系数:
之后, 由随即梯度下降法(Stochastic Gradient Descent)根据步骤4中的损失函数更新整个网络的参数,随即梯度下降法的学习率是0.05。
5.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤6中,用训练好的模型进行预测,模型输出为长度为12的向量;向量里的1-8表示类别的概率分布,向量里的9-12表示(x,y),长,宽信息;输出结果时仅使用1-8,概率分布中最大值所对应的类别就是输出类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云思创智信息科技有限公司,未经南京云思创智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811444686.8/1.html,转载请声明来源钻瓜专利网。





