[发明专利]一种基于信息增强的目标检测方法有效
申请号: | 202010647374.8 | 申请日: | 2020-07-07 |
公开(公告)号: | CN111612017B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 史殿习;崔玉宁;刘哲;杨思宁;李林 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 增强 目标 检测 方法 | ||
1.一种基于信息增强的目标检测方法,其特征在于包括以下步骤:
第一步:构建目标检测系统,目标检测系统由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成;
特征提取模块为一个卷积神经网络,与语义提升模块相连;特征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给语义提升模块;
语义提升模块包含一个1×1卷积层和一个ReLU激活函数,与特征提取模块、特征选择模块、特征融合模块相连;语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的特征图逐张进行卷积操作,得到S'(I),将S'(I)发送给ReLU激活函数;ReLU激活函数对S'(I)进行激活操作,得到S(I),将S(I)输出给特征选择模块和特征融合模块;
特征选择模块与语义提升模块、特征融合模块相连,对S(I)进行选择性地融合,得到全局特征图集合G(I),将G(I)发送给特征融合模块;特征选择模块由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块、第二特征图相加模块、第二变形模块组成;特征生成模块由6个注意力模块、归一化模块、通道赋权模块组成;
第一变形模块与语义提升模块和第一特征图相加模块相连,统一S(I)中特征图的尺寸,得到A1(I),将A1(I)发送给第一特征图相加模块;
第一特征图相加模块与第一变形模块和全局池化模块连接,对A1(I)中的六个特征图执行加法操作,获得第一全局特征图I2,将I2发送给全局池化模块;
全局池化模块和第一特征图相加模块和非线性增加模块相连,对I2进行全局池化操作,获得第一一维向量A3(I),将A3(I)发送给非线性增加模块;
非线性增加模块包含一个全连接层和一个ReLU激活函数,与全局池化模块、特征生成模块相连,全连接层对A3(I)进行全连接操作,得到激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收到A4(I)',对A4(I)'进行激活操作,得到第二一维向量A4(I),将A4(I)发送给特征生成模块;
特征生成模块和非线性增加模块、第二特征图相加模块相连;特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成;6个注意力模块均为一层全连接层;
6个注意力模块均与非线性增加模块和归一化模块相连,6个注意力模块并行地对A4(I)进行全连接操作,分别得到S(I)中6个特征图的权重系数,用w1,w2,w3,w4,w5,w6表示,wi为S(I)中第i个特征图的权重系数,1≤i≤6;6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块;归一化模块与6个注意力模块、通道赋权模块相连,对w1,w2,w3,w4,w5,w6的256个元素进行归一化,得到归一化后的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6发送给通道赋权模块;
通道赋权模块和归一化模块、第一变形模块相连,对S中的s1,s2,s3,s4,s5,s6与A1(I)中对应的特征图分别执行通道级乘法操作,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I)中,将A5(I)发送给第二特征图相加模块;
第二特征图相加模块与通道赋权模块、第二变形模块相连,对A5(I)中的6个特征图执行加法操作,获得第二全局特征图I3,将I3发送给第二变形模块;
第二变形模块与第二特征图相加模块、特征融合模块相连;第二变形模块对I3进行变形,得到变形后的特征图集合G(I),将G(I)发送给特征融合模块;
特征融合模块与特征选择模块、语义提升模块、检测模块相连,它从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)中相同尺寸的特征图相加,得到用于检测的特征图集合D(I);
检测模块与特征融合模块相连,由分类网络、定位网络和非极大值抑制模块即NMS模块组成;定位网络与特征融合模块、非极大值抑制模块相连,定位网络从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的坐标值;分类网络与特征融合模块、非极大值抑制模块相连,从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向NMS模块输出预测目标的类别;非极大值抑制模块与分类网络和定位网络相连,将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测类别;
第二步:准备目标检测系统的训练数据集,方法为:
选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为正整数;对于训练数据集中的第d张图片,1≤d≤16551,PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量gd,为包含四个值的一维向量,z表示一张图片中的第z个目标,为目标区域矩形框的左上角的坐标值,为目标区域举行框的右下角的坐标值,四个坐标值均为标量,四个值表示出一个矩形的目标区域;
第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是:
3.1对特征提取模块的网络参数Φ1、语义提升模块的网络参数Φ2、特征选择模块的网络参数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4进行初始化;
3.2将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训练,拟合得到目标检测系统的网络参数;
第四步:利用目标检测系统进行目标检测,方法是:
4.1通过相机获得需要检测的图像II;
4.2将训练得到的目标检测系统的网络参数载入到目标检测系统中;
4.3特征提取模块对被检测图像II进行特征提取,得到多尺度特征图集合F(II),F(II)中包含6张图,尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256;
4.4语义提升模块的1×1卷积层从特征提取模块接收F(II),对F(II)中的特征图逐张进行卷积操作,将F(II)中的6个特征图的第三个维度统一为256,得到S'(II),将S'(II)发送给ReLU激活函数;ReLU激活函数从1×1卷积网络接收到S'(II),对S'(II)进行激活操作,提升特征的语义信息,得到语言提升特征图集合S(II),将S(II)输出给特征选择模块和特征融合模块;S(II)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;
4.5特征选择模块为S(II)中的每一个通道的特征图学习一个权重系数,对S(II)进行信息增强,即增强S(II)中的有用信息、抑制无用信息,并通过加法运算和放缩,获得全局语义特征图集合G(II);具体方法为:
4.5.1第一变形模块从语义提升模块接收S(II),对S(II)中的特征图统一尺寸,得到A1(II),A1(II)包含的6个特征图尺寸都为10×10×256;
4.5.2第一特征图相加模块从第一变形模块接收A1(II),对A1(II)中的6个特征图执行像素级别的加法运算,获得尺寸为10×10×256的第一全局特征图II2,将II2发送给全局池化模块;
4.5.3全局池化模块从第一特征图相加模块接收II2,对II2进行全局池化操作,得到第一一维向量A3(II),将A3(II)发送给非线性增加模块;A3(II)中共有256个元素,第c个元素即全局特征图II2中第c个通道经过全局平均池化后的值A3(II)c为:
H、W表示II2的长和宽,a、b表示第c个通道中像素点的坐标,1≤a≤H,1≤b≤W,1≤c≤256;
4.5.4非线性增加模块从全局池化模块接收A3(II),非线性增加模块的全连接层对A3(II)进行全连接操作,得到包含16个元素的激活前向量A4(II)',将A4(II)'发送给ReLU激活函数;ReLU激活函数从全连接层接收A4(II)',对A4(II)'进行激活操作,提升A4(II)'的非线性,得到包含16个元素的第二一维向量A4(II),将A4(II)发送给特征生成模块;
4.5.5特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(II)中每个特征图中的每个通道对应的权重参数,并对每个通道的像素进行赋权操作,获得S(II)中更符合检测目标尺度的特征图信息;具体方法为:
4.5.5.1 6个注意力模块从非线性增加模块分别接收A4(II),并行地对A4(II)进行全连接操作,分别得到6个包含256个元素的一维向量,即w1,w2,w3,w4,w5,w6,w1,w2,w3,w4,w5,w6中的任意一个用wi表示,wi为S(II)中第i个特征图的权重系数,1≤i≤6;6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块;
4.5.5.2归一化模块从6个注意力模块分别接收w1,w2,w3,w4,w5,w6,对w1,w2,w3,w4,w5,w6采用softmax进行归一化操作,得到包含256个元素的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6发送给通道赋权模块;si中的第c个元素sic为:
4.5.5.3通道赋权模块从归一化模块接收s1,s2,s3,s4,s5,s6,从第一变形模块接收A1(II),对s1,s2,s3,s4,s5,s6和A1(II)中对应的特征图进行通道级乘法操作,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(II),将A5(II)发送给第二特征图相加模块;A5(II)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;A5(II)中第i个特征图的第c个通道中的元素A5(II)ic为:
A5(II)ic=A1(II)ic×sic;
4.5.6第二特征图相加模块从通道赋权模块接收A5(II),对A5(II)中的6个特征图执行像素级别的相加,获得具有多尺度信息的第二全局特征图II3,II3的尺寸为10×10×256,将II3发送给第二变形模块;
4.5.7第二变形模块从第二特征图相加模块接收II3,先对II3进行两次并行插值操作,将II3放大至38×38×256,19×19×256;再对II3进行三次并行下采样操作,将II3缩小至5×5×256,3×3×256,1×1×256;将II3以及放缩后5个特征图构成变形后的特征图集合G(II),将G(II)发送给特征融合模块;
4.6特征融合模块从特征选择模块接收G(II)、从语义提升模块接收S(II),将G(II)和S(II)相加,得到检测特征图集合D(II),将D(II)发送给检测模块,D(II)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;
4.7检测模块从特征融合模块接收D(II),利用分类网络获得预测目标的概率集合C(II)={c1,c2,c3,…,ce,…,cE},E为训练数据集图片中共包含的目标类别数,ce={ce1,ce2,ce3,…,cep,…,ceP},表示预测目标属于第e类的概率集合,cep表示属于第e类的预测目标中第ep个目标属于第e类的概率;利用定位网络获得预测目标的坐标值集合L(II)={l1,l2,l3,…,le,…,lE},le={le1,le2,le3,…,lep,…,leP},表示预测目标属于第e个类别的坐标向量集合,是坐标系中预测目标框左上角横坐标,是预测目标框左上角纵坐标,是预测目标框右下角横坐标,是预测目标框右下角纵坐标;le和ce中相同序号的元素对应相同的预测目标,然后利用非最大值抑制模块对L(II)和C(II)进行筛选,获得最终的目标检测结果;具体方法为:
4.7.1.分类网络接收D(II),生成预测目标的类别概率C(II)={c1,c2,c3,…,ce,…,cE};
4.7.2.定位网络接收D(II),生成预测目标的坐标值集合L(II)={l1,l2,l3,…,le,…,lE};
4.7.3.利用非最大值抑制模块对L(II)和C(II)进行筛选:
4.7.3.1.初始化e=1;
4.7.3.2.将ce中的概率值按照降序排列;
4.7.3.3.将le中坐标值按照ce的排序结果重新排列,保证属于同一个预测目标的类别概率和坐标值的元素序号相同;
4.7.3.4.初始化p=1;
4.7.3.5.计算le(p+1)与lep的交并比;若交并比小于阈值t,删除le(p+1)对应的预测目标,转4.7.3.6;若交并比大于t,则保留le(p+1)对应的预测目标,转4.7.3.6;
4.7.3.6.若p<P,则令p=p+1,转4.7.3.5;若p=P,转4.7.3.7;
4.7.3.7.若e<E,则令e=e+1,转4.7.3.2;若e=E,转4.7.3.8;
4.7.3.8.收集C(II)中被保留的类别概率,收集L(II)中被保留的坐标值,作为目标检测系统最终的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010647374.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置