[发明专利]一种基于激活函数改进的YOLOv3算法在审

专利信息
申请号: 202010880785.1 申请日: 2020-08-28
公开(公告)号: CN112364974A 公开(公告)日: 2021-02-12
发明(设计)人: 王兰美;朱衍波;褚安亮;廖桂生;王桂宝;孙长征;贾建科 申请(专利权)人: 西安电子科技大学;陕西理工大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 710071 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 激活 函数 改进 yolov3 算法
【权利要求书】:

1.一种基于激活函数改进的YOLOv3算法,包含以下步骤:

步骤一:下载当前目标检测领域通用数据集PASCAL VOC数据集,保证与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能;

步骤二:以改进的激活函数为基础,重建YOLOv3网络结构;

步骤三:在PASCAL VOC数据集对上述模型进行训练;

步骤四:对比经典的YOLOv3算法,分析测试结果。

2.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法,步骤一:下载当前目标检测领域通用数据集VOC数据集,PASCAL VOC数据集提供了20个对象类别;本发明用到的数据集中图片为标注了目标的类别信息pi及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h,用矩形框可视化。

3.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法,步骤二:以改进的激活函数为基础,重建YOLOv3网络结构;

首先,对网络的初始权重进行随机化,使其服从高斯正态分布,然后输入一张RGB图片,这张图片可以表示为a×a×3的矩阵形式,其中a为图片的宽度和高度;

随后,输入矩阵会经由下面构建的网络结构,由52个卷积层组成,分为三个阶段,即三个不同尺度的输出;具体如下,其中“×”代表乘积:

通过第1层卷积层,卷积核尺寸为3×3,步长为2,个数为32,得到208×208×32的特征图输出;进入第2层卷积层,卷积核尺寸为3×3,步长为1,个数为32,得到208×208×32的特征图输出,以此类推;依据网络图中的各层不同的卷积核,分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图,然后进入特征融合层1,2,3继续进行特征融合操作,分别如下:

特征融合层1是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到52×52×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到52×52×75的特征图1;

特征融合层2是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到26×26×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到26×26×75的特征图2;

特征融合层3是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到13×13×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到13×13×75的特征图3;

其中,每个卷积层分别包含3个操作:

第一步:对输入该层的特征图矩阵做卷积运算;

第二步:将上一步得到的卷积结果进行批量归一化处理,将数据全部归一化为[0,1]之间,得到归一化之后的二维矩阵,有利于加快训练速度;

第三步:将上一步得到的归一化之后的二维矩阵作为激活函数的输入,得到该层的最终输出;

激活函数的公式如下:

y=x×tanh(ln(1+ex))

其中x是上一步得到的归一化之后的二维矩阵,tanh()是双曲正切函数,得到的y是每个神经元经过激活函数后的计算值;将非线性特性的激活函数引入到本发明的网络中,这样会保证输入输出之间是非线性映射关系,而不是简单的线性组合的关系,从而能够保证网络的学习能力;

特征提取模块的输出为三个特征矩阵,这三个特征矩阵的维度分别为52×52×75、26×26×75和13×13×75,其中52×52×75的特征矩阵中每一个神经元的感受野是最小的,可以负责检测原始输入图像中的小目标,同理,13×13×75的特征矩阵中每一个神经元的感受野是最大的,可以负责检测原始输入图像中的大目标;这样进行多尺度预测,可以避免小目标漏检的情况;

其中以13×13×75特征图为例,第一个维度13代表图片中横向像素点的个数,第二个维度13代表图片中纵向像素点的个数,第三个维度75代表感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含25个信息点,25个信息点分别为预测框的4个坐标信息txi,tyi,twi,thi、预测置信度和类别概率其中类别信息其中(txi、tyi)表示第i个预测框中心点的坐标参数值,(twi、thi)表示第i个预测框宽和高的参数值,预测置信度表示第i个预测框包含目标的概率,类别概率为多维向量,表示了第i个预测框的目标是某一类别的概率;需要注意的一点是,txi,tyi,twi,thi这四个参数是相对位置坐标,需要转化为最终在原始图片中的实际坐标;转换的公式如下:

其中,txi,tyi,twi,thi是预测的相对坐标值,pw、ph表示预测框对应锚框的宽度以及高度,cx、cy表示预测框相对图片左上角位置坐标的偏移量,表示预测框中心点实际坐标,表示预测框的实际宽度以及实际高度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;陕西理工大学,未经西安电子科技大学;陕西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010880785.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top