[发明专利]一种基于激活函数改进的YOLOv3算法在审

申请号：	202010880785.1	申请日：	2020-08-28
公开（公告）号：	CN112364974A	公开（公告）日：	2021-02-12
发明（设计）人：	王兰美;朱衍波;褚安亮;廖桂生;王桂宝;孙长征;贾建科	申请（专利权）人：	西安电子科技大学;陕西理工大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于激活函数改进 yolov3 算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于激活函数改进的YOLOv3算法，包含以下步骤：

步骤一：下载当前目标检测领域通用数据集PASCAL VOC数据集，保证与该领域通用数据集保持一致，以达到比对效果，检测本发明方法性能；

步骤二：以改进的激活函数为基础，重建YOLOv3网络结构；

步骤三：在PASCAL VOC数据集对上述模型进行训练；

步骤四：对比经典的YOLOv3算法，分析测试结果。

2.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法，步骤一：下载当前目标检测领域通用数据集VOC数据集，PASCAL VOC数据集提供了20个对象类别；本发明用到的数据集中图片为标注了目标的类别信息p_i及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，用矩形框可视化。

3.根据权利要求书1所述的一种基于激活函数改进的YOLOv3算法，步骤二：以改进的激活函数为基础，重建YOLOv3网络结构；

首先，对网络的初始权重进行随机化，使其服从高斯正态分布，然后输入一张RGB图片，这张图片可以表示为a×a×3的矩阵形式，其中a为图片的宽度和高度；

随后，输入矩阵会经由下面构建的网络结构，由52个卷积层组成，分为三个阶段，即三个不同尺度的输出；具体如下，其中“×”代表乘积：

通过第1层卷积层，卷积核尺寸为3×3，步长为2，个数为32，得到208×208×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到208×208×32的特征图输出，以此类推；依据网络图中的各层不同的卷积核，分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图，然后进入特征融合层1，2，3继续进行特征融合操作，分别如下：

特征融合层1是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到52×52×128的特征图，然后进行3×3×75和1×1×75的卷积操作，最终得到52×52×75的特征图1；

特征融合层2是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到26×26×128的特征图，然后进行3×3×75和1×1×75的卷积操作，最终得到26×26×75的特征图2；

特征融合层3是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到13×13×128的特征图，然后进行3×3×75和1×1×75的卷积操作，最终得到13×13×75的特征图3；

其中，每个卷积层分别包含3个操作：

第一步：对输入该层的特征图矩阵做卷积运算；

第二步：将上一步得到的卷积结果进行批量归一化处理，将数据全部归一化为[0,1]之间，得到归一化之后的二维矩阵，有利于加快训练速度；

第三步：将上一步得到的归一化之后的二维矩阵作为激活函数的输入，得到该层的最终输出；

激活函数的公式如下：

y＝x×tanh(ln(1+e^x))

其中x是上一步得到的归一化之后的二维矩阵，tanh()是双曲正切函数，得到的y是每个神经元经过激活函数后的计算值；将非线性特性的激活函数引入到本发明的网络中，这样会保证输入输出之间是非线性映射关系，而不是简单的线性组合的关系，从而能够保证网络的学习能力；

特征提取模块的输出为三个特征矩阵，这三个特征矩阵的维度分别为52×52×75、26×26×75和13×13×75，其中52×52×75的特征矩阵中每一个神经元的感受野是最小的，可以负责检测原始输入图像中的小目标，同理，13×13×75的特征矩阵中每一个神经元的感受野是最大的，可以负责检测原始输入图像中的大目标；这样进行多尺度预测，可以避免小目标漏检的情况；

其中以13×13×75特征图为例，第一个维度13代表图片中横向像素点的个数，第二个维度13代表图片中纵向像素点的个数，第三个维度75代表感兴趣目标特征数，包含3个尺度的信息，每个尺度的信息又包含25个信息点，25个信息点分别为预测框的4个坐标信息t_xi，t_yi，t_wi，t_hi、预测置信度和类别概率其中类别信息其中(t_xi、t_yi)表示第i个预测框中心点的坐标参数值，(t_wi、t_hi)表示第i个预测框宽和高的参数值，预测置信度表示第i个预测框包含目标的概率，类别概率为多维向量，表示了第i个预测框的目标是某一类别的概率；需要注意的一点是，t_xi，t_yi，t_wi，t_hi这四个参数是相对位置坐标，需要转化为最终在原始图片中的实际坐标；转换的公式如下：

其中，t_xi，t_yi，t_wi，t_hi是预测的相对坐标值，p_w、p_h表示预测框对应锚框的宽度以及高度，c_x、c_y表示预测框相对图片左上角位置坐标的偏移量，表示预测框中心点实际坐标，表示预测框的实际宽度以及实际高度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;陕西理工大学，未经西安电子科技大学;陕西理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010880785.1/1.html，转载请声明来源钻瓜专利网。

上一篇：运用动态偏向值提高预测准确度的电影推荐系统算法
下一篇：一种废弃电线电缆的处理装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于激活函数改进的YOLOv3算法在审

专利文献下载