[发明专利]一种基于金字塔输入增益的卷积神经网络的目标检测方法有效
| 申请号: | 201811560431.8 | 申请日: | 2018-12-20 |
| 公开(公告)号: | CN109615016B | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 刘峡壁;刘伟华;李慧玉 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06T7/00;G06N3/04 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 毛燕 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 金字塔 输入 增益 卷积 神经网络 目标 检测 方法 | ||
1.一种基于金字塔输入增益的卷积神经网络的目标检测方法,其特征在于:提出了一种基于金字塔输入增益的卷积神经网络模型PiaNet,网络模型PiaNet主要包括特征提取模块和多任务预测模块;
其中,所述特征提取模块包括特征压缩模块和特征放大模块;其中,特征压缩模块包括N个卷积块,沿着一条融合源连接输入的特征压缩路径展开;特征放大模块包括M个反卷积块,沿着一条融合了跳跃连接的特征放大路径展开;
其中,源连接对预处理后的图像分别进行average pooling操作得到多尺度源图像并构成了图像金字塔,降低了特征压缩路径上的信息损失;
特征压缩路径上的每个卷积块包含一次卷积、BN、激活和Pooling操作,对输入图像进行特征提取得到特征图;
从特征压缩路径上的第一个卷积块开始,每一层输出的特征图和相应尺度的源图像拼接构成下一层卷积操作的输入;特征放大路径上的每个卷积块包含一次Unpooling、反卷积、BN和激活操作,对特征压缩路径输出的特征图进行特征放大;
从特征放大路径上的第一个反卷积块开始,每一层输出的特征图和来自特征压缩路径的特征图拼接构成下一层反卷积操作的输入,使得压缩路径上具有的目标细节信息能够传输到具有高层语义信息的放大特征层路径上;
多任务预测模块包含多任务损失函数;
所述目标检测方法,包括训练阶段和测试阶段;
其中,训练阶段采用两阶段迁移学习策略,具体实现步骤如下:
步骤(1)数据增强和数据预处理,具体为:基于数据划分、数据增强以及预处理从带标记的原始数据中产生第一阶段训练的训练集、第二阶段训练的训练集和测试集;
其中,数据增强的使用是为了解决了小样本的学习问题;
步骤(1)又包含如下子步骤:
步骤(1A)将带标记的原始数据划分为带有检测目标的正样本训练集、不带有检测目标的负样本训练集以及测试集;
步骤(1B)采用数据增强手段处理正样本训练集,再与正样本训练集一起构成新的正样本训练集;
步骤(1C)对步骤(1B)构成的新的正样本训练集和步骤(1A)输出的负样本训练集以及测试集中的每一幅图像进行灰度归一化和去均值的预处理,分别得到正样本训练集和负样本训练集组成的训练集以及测试集,并将训练集平均划分为第一阶段训练所需的训练集和第二阶段训练所需的训练集;
步骤(2)基于步骤(1)生成的第一阶段训练所需的训练集进行第一阶段训练;
其中,第一阶段训练在二分类网络中进行,二分类网络由PiaNet模型中的特征提取模块和average pooling层以及softmax层相连接组成;步骤(2)的具体训练过程,具体为:将步骤(1C)获得的用于第一阶段训练的训练集输入二分类网络,采用随机梯度下降算法优化softmax损失函数,得到训练后的二分类网络,此训练后的二分类网络中包括训练好的特征提取模块;
由于此分类网络只处理二分类问题,而且训练集中仅包含小尺寸图像,所以在第一阶段训练中仅需很小的计算代价便可获得较好的初始化特征提取模块;
步骤(3)基于步骤(1)生成的第二阶段训练所需的训练集进行第二阶段训练,得到训练后的PiaNet网络,包含如下子步骤:
步骤(3A)将步骤(2)训练得到的训练好的特征提取模块载入到PiaNet网络中;
步骤(3B)将步骤(1C)获得的用于第二阶段训练的训练集输入到PiaNet网络,通过特征提取模块中的放大特征路径获得不同尺度的特征图;
步骤(3C)对步骤(3B)输出的不同尺度的特征图进行多尺度锚点设计,并将特征图划分到多尺度锚点中;
步骤(3D)步骤(3C)中的每个锚点对标签中相应的ground-truth检测框进行回归计算,同时对检测框进行优化分类,输出检测框的位置信息和分类结果,采用随机梯度下降算法优化多任务损失函数,得到训练后的PiaNet网络;
测试阶段,即步骤(4)精确检测目标,具体为:
步骤(4A)将步骤(1C)获得的测试集输入到步骤(3D)训练得到的PiaNet网络中,通过多任务损失函数输出检测框的位置信息和分类结果;
步骤(4B)将步骤(4A)中的回归和分类结果输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811560431.8/1.html,转载请声明来源钻瓜专利网。





