[发明专利]一种基于密集连接深度网络的目标检测方法有效

申请号：	201911188895.5	申请日：	2019-11-28
公开（公告）号：	CN110991311B	公开（公告）日：	2021-09-24
发明（设计）人：	陈莹;潘志浩;化春键	申请（专利权）人：	江南大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	彭素琴
地址：	214000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于密集连接深度网络目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于密集连接深度网络的目标检测方法，其特征在于，包括以下步骤：

步骤(1)：读入Pascal VOC数据集中的图像数据并提取目标数据特征；

步骤(2)：训练网络模型；

步骤(3)：进行目标检测；

具体的步骤为：

步骤(1)：读入Pascal VOC数据集中的图像数据并提取目标数据特征：网络读取输入的图像数据，首先将其分辨率归一化为416*416，然后通过一个卷积层和一个池化层后得到输出大小为208*208的特征映射图，再经过5个密集连接模块对待检测图像进行特征提取，得到13x13大小的特征图，并将提取得到的13x13大小的特征图进行上采样，得到26x26大小的特征映射图；其中卷积层中卷积核大小为3*3，步长为1；池化层中池化的核大小为2*2，步长为2；

步骤(2)：训练网络模型：设置网络batch为64，重复迭代训练得到检测模型；

步骤(3)：进行目标检测：网络首先通过特征提取网络对输入图像提取特征，得到一定尺寸的k*k特征图，然后将输入图像分为k*k个单元格，每个单元格预测固定数量的边界框；预测时采用逻辑回归，用于预测每个边界框的目标性得分，即这块区域是目标的可能性有多大；而后进行非极大值抑制NMS，最后输出检测结果；

所述步骤(1)还包括：

①引入的密集连接方式，使得L层网络有L(L+1)/2个连接；其中的密集连接模块DenseBlock主要是由1*1和3*3的卷积层组成，其中的1*1卷积操作又被成为bottleneck layer；3*3卷积则是用于提取图像特征；密集连接模块Dense Block中每一层的输入来自前面所有层的输出；下式表明了第l层的输入即为之前所有层的输出之和；

x_l＝H_l([x₀,x₁,…,x_l-1])

其中，x_l表示第l层的输出，[x₀,x₁,L,x_l-1]表示第0,L,l-1层输出的级联；上式中H_l(g)表示三个连续运算的复合函数，由BN、ReLU和一个3*3的卷积层组成；

②减少密集连接模块Dense Block中卷积层输出特征图数量；其中，Dense Block1设定特征映射图数量为16，Dense Block2、Dense Block3、Dense Block4、Dense Block5设定为32、64、128、256；输出特征图数量不断递增的目的是使网络能够学习到图像数据中更为丰富的高层语义信息，增加定位的精确度；

③将网络分为多个密集连接模块Dense Block，其中，设定不同Dense Block的特征图数量均不相同且每个Dense Block的特征图输出数量都呈倍数增长，数量分别为16,32,64,128,256，并将每个Dense Block中卷积得到特征图的输出大小都设定为相同；

所述步骤(2)包括：

设置网络的学习率为0.001，动量设为0.9，权重衰减正则项为0.0005，网络最大的迭代次数为500200，网络的学习率在迭代次数到达400000和450000时衰减10倍；同时网络使用多尺度训练，网络读取数据后，图像归一化分辨率的宽高在320～608之间取随机值，且每10轮随机改变一次，随机值均为32的倍数；

所述步骤(3)包括：

①yolov3-tiny使用K-means聚类算法聚类数据集中真实框，为步骤(1)中得到的两种尺度13x13、26x26的特征图设定3个不同大小的先验框，总共聚类出6个不同尺寸的先验框；

两种不同尺度的6个先验框大小如下所示：

②使用6个不同先验框Anchors在两种不同尺度13x13、26x26的特征映射图上进行预测；在对边界框进行预测的时候，为了更好的数据建模以及支持多标签分类，网络采用逻辑回归logistic regression；网络边界框的坐标预测公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中t_x、t_y、t_w、t_h为模型的实际预测值，c_x和c_y表示grid cell的坐标偏移量，p_w和p_h表示anchor box的宽高，b_x、b_y、b_w和b_h为最终得到的边界框的中心的坐标和宽高；坐标的训练采用的是平方和误差损失；

③设定非极大值抑制NMS的阈值为0.45。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江南大学，未经江南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911188895.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于密集连接深度网络的目标检测方法有效

专利文献下载