[发明专利]一种具有丰富空间信息的多模型集成目标检测方法有效
| 申请号: | 201910567433.8 | 申请日: | 2019-06-27 |
| 公开(公告)号: | CN110348447B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 徐杰;汪伟;王菡苑;方伟政 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V10/82;G06V10/26;G06K9/62;G06N3/04 |
| 代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 具有 丰富 空间 信息 模型 集成 目标 检测 方法 | ||
1.一种具有丰富空间信息的多模型集成目标检测方法,其特征在于,包括以下步骤:
(1)、搭建网络模型
(1.1)搭建特征提取模块
在Pytorch上搭建基于ImageNet预训练的VGG16模型框架和MobileNet-V1模型框架,以及集成VGG16和MobileNet-V1的模型框架作为特征提取模块;
(1.2)、基于空洞卷积和Incepation-Resnet结构搭建上下文模块
基于空洞卷积和Incepation-Resnet结构,构建三个结构相同的上下文block,再将三个上下文block进行级联,得到上下文模块;
其中,每个上下文block包括一个shortcut分支和四个空洞卷积分支,在每个分支的头部使用1×1的卷积层;
基于Incepation-Resnet结构,将上下文block中的卷积层分别替换为一个2-dilated层,两个3-dilated层和一个5-dilated层,以获取更多的上下文;
将四个空洞卷积分支连接起来,并在尾部使用1×1卷积层来调整输出特征图中的通道数量,生成的特征图;
将shortcut分支的输出特征图与四个空洞卷积分支生成的特征图相加,再对相加的结果应用Relu激活层,从而获得上下文block的输出特征图;
(1.3)、搭建特征融合模块
(1.3.1)、选择特征融合层
在基于ImageNet预训练的VGG16模型框架中,将VGG16模型的卷积层第四层、第五层和上下文模块中第二个上下文block层一起作为特征融合层;
在基于ImageNet预训练的MobileNet-V1模型框架中,将MobileNet-V1模型的dw4_1层、dw5_5层和上下文模块中第二个上下文block层一起作为特征融合层;
在集成VGG16和MobileNet-V1的模型框架中,将VGG16模型的FC_7层和MobileNet-V1模型的dw5_5层、VGG16模型的Conv4_1层和MobileNet-V1模型的dw4_1层分别进行集成,集成后的层和上下文模块中第二个上下文block层一起作为特征融合层;
(1.3.2)、对选择的特征融合层进行尺度变换
在基于ImageNet预训练的VGG16模型框架中,将VGG16模型的卷积层第四层采用1×1卷积层以减少通道数,卷积层第五层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小;
在基于ImageNet预训练的MobileNet-V1模型框架中,将MobileNet-V1模型的dw4_1层采用1×1卷积层以减少通道数,dw5_5层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小;
在集成VGG16和MobileNet-V1的模型框架中,将VGG16模型的Conv4_1层和MobileNet-V1模型的dw4_1层集成后的层采用1×1卷积层以减少通道数,
将VGG16模型的FC_7层和MobileNet-V1模型的dw5_5层集成后的层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小;
(1.3.3)、对尺度变换后的特征融合层采用concat或逐元素相加的形式进行融合,再对融合后的特征图采用批正则化的方式进行归一化操作,得到包含更多空间信息的总特征图;
(1.4)、结合各个模块,构建网络模型;
将上下文模块连接到特征提取模块之后,再按照步骤(1.3)的方式连接特征融合模块,然后将特征融合模块的输出特征图输入到由六个卷积层组成的特征金字塔中,除特征金字塔的倒数第三层外,将特征金字塔的每一层输出特征图和上下文模块的输出特征图一起送入到检测层进行检测,从而搭建出三个网络模型,分别为:ImageNet预训练的VGG16模型,记为VNet(),ImageNet预训练的MobileNet-V1模型,记为MNet()和集成VGG16和MobileNet-V1的模型,记为MVNet();
(2)、训练网络模型
(2.1)、从PASCAL VOC 2007、PASCAL VOC 2012和COCO三个基准数据集中下载多组数据,将其中一部分数据作为训练数据,其余的作为测试数据;
(2.2)、将训练数据分别输入至VNet、MNet和MVNet,进行前向传播,求得损失函数值,然后求取梯度值进行反向传播,并更新网络权重,然后再重复训练,直到网络模型收敛,并停止迭代;
(3)、选择用于集成的网络模型
(3.1)、任意选择VNet、MNet和MVNet三者中的两者作为集成网络模型;
(3.2)、采用学习率变化的方式选择集成网络模型;
(3.2.1)、对于VNet、Mnet和MVNet三个网络中的任意一个网络,在最后T个迭代周期中使用循环学习率为a(i):
其中,i∈T,α1、α2为常数,e为学习率周期;
(3.2.2)、在每次循环学习率等于α2时,保存一次模型,然后分别计算保存的模型的损失函数值,选择损失函数值最小的两个模型作为集成网络模型;
(4)、目标检测
先将集成网络模型中的两个子模型进行拼接,然后将测试数据输入至集成网络模型,并进行非极大值抑制,得到测试数据的预测边界框;再基于预测边界框预测出的边界框和类别得分,并检测出测试数据中的目标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910567433.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





