[发明专利]一种基于激活函数改进的YOLOv3算法在审
申请号: | 202010880785.1 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112364974A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 王兰美;朱衍波;褚安亮;廖桂生;王桂宝;孙长征;贾建科 | 申请(专利权)人: | 西安电子科技大学;陕西理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 激活 函数 改进 yolov3 算法 | ||
1.一种基于激活函数改进的YOLOv3算法,包含以下步骤:
步骤一:下载当前目标检测领域通用数据集PASCAL VOC数据集,保证与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能;
步骤二:以改进的激活函数为基础,重建YOLOv3网络结构;
步骤三:在PASCAL VOC数据集对上述模型进行训练;
步骤四:对比经典的YOLOv3算法,分析测试结果。
2.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法,步骤一:下载当前目标检测领域通用数据集VOC数据集,PASCAL VOC数据集提供了20个对象类别;本发明用到的数据集中图片为标注了目标的类别信息pi及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h,用矩形框可视化。
3.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法,步骤二:以改进的激活函数为基础,重建YOLOv3网络结构;
首先,对网络的初始权重进行随机化,使其服从高斯正态分布,然后输入一张RGB图片,这张图片可以表示为a×a×3的矩阵形式,其中a为图片的宽度和高度;
随后,输入矩阵会经由下面构建的网络结构,由52个卷积层组成,分为三个阶段,即三个不同尺度的输出;具体如下,其中“×”代表乘积:
通过第1层卷积层,卷积核尺寸为3×3,步长为2,个数为32,得到208×208×32的特征图输出;进入第2层卷积层,卷积核尺寸为3×3,步长为1,个数为32,得到208×208×32的特征图输出,以此类推;依据网络图中的各层不同的卷积核,分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图,然后进入特征融合层1,2,3继续进行特征融合操作,分别如下:
特征融合层1是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到52×52×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到52×52×75的特征图1;
特征融合层2是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到26×26×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到26×26×75的特征图2;
特征融合层3是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到13×13×128的特征图,然后进行3×3×75和1×1×75的卷积操作,最终得到13×13×75的特征图3;
其中,每个卷积层分别包含3个操作:
第一步:对输入该层的特征图矩阵做卷积运算;
第二步:将上一步得到的卷积结果进行批量归一化处理,将数据全部归一化为[0,1]之间,得到归一化之后的二维矩阵,有利于加快训练速度;
第三步:将上一步得到的归一化之后的二维矩阵作为激活函数的输入,得到该层的最终输出;
激活函数的公式如下:
y=x×tanh(ln(1+ex))
其中x是上一步得到的归一化之后的二维矩阵,tanh()是双曲正切函数,得到的y是每个神经元经过激活函数后的计算值;将非线性特性的激活函数引入到本发明的网络中,这样会保证输入输出之间是非线性映射关系,而不是简单的线性组合的关系,从而能够保证网络的学习能力;
特征提取模块的输出为三个特征矩阵,这三个特征矩阵的维度分别为52×52×75、26×26×75和13×13×75,其中52×52×75的特征矩阵中每一个神经元的感受野是最小的,可以负责检测原始输入图像中的小目标,同理,13×13×75的特征矩阵中每一个神经元的感受野是最大的,可以负责检测原始输入图像中的大目标;这样进行多尺度预测,可以避免小目标漏检的情况;
其中以13×13×75特征图为例,第一个维度13代表图片中横向像素点的个数,第二个维度13代表图片中纵向像素点的个数,第三个维度75代表感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含25个信息点,25个信息点分别为预测框的4个坐标信息txi,tyi,twi,thi、预测置信度和类别概率其中类别信息其中(txi、tyi)表示第i个预测框中心点的坐标参数值,(twi、thi)表示第i个预测框宽和高的参数值,预测置信度表示第i个预测框包含目标的概率,类别概率为多维向量,表示了第i个预测框的目标是某一类别的概率;需要注意的一点是,txi,tyi,twi,thi这四个参数是相对位置坐标,需要转化为最终在原始图片中的实际坐标;转换的公式如下:
其中,txi,tyi,twi,thi是预测的相对坐标值,pw、ph表示预测框对应锚框的宽度以及高度,cx、cy表示预测框相对图片左上角位置坐标的偏移量,表示预测框中心点实际坐标,表示预测框的实际宽度以及实际高度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;陕西理工大学,未经西安电子科技大学;陕西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880785.1/1.html,转载请声明来源钻瓜专利网。