[发明专利]基于改进YOLO V5的无人机航拍图像目标检测方法有效
申请号: | 202111155472.0 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113807464B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 程向红;曹毅;胡彦钟;张文卓;钱荣辉 | 申请(专利权)人: | 东南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/774 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 yolo v5 无人机 航拍 图像 目标 检测 方法 | ||
1.一种基于改进YOLO V5的无人机航拍图像目标检测方法,其特征在于,该方法包括如下步骤:
(1)利用无人机航拍图像构建数据集:对无人机航拍图像进行分类和标注后,得到带有类别标签的图像数据集,将带有类别标签的图像数据集划分为训练集和测试集,其中80%作为训练集,20%作为测试集;
(2)对步骤(1)得到的带有类别标签的图像数据集,进行预处理操作得到特征图,并将预处理后的特征图输入到改进的YOLO V5网络获取不同尺度的无人机航拍图像特征图;改进的YOLO V5网络是指在主干网络部分利用卷积层替换Focus模块中的切片层,并依次分别串联卷积层模块、跨阶段局部网络、空间金字塔池化模块;
(3)对步骤(2)得到的不同尺度的无人机航拍图像特征图,将其输入到改进的YOLO V5网络中的Neck部分,Neck部分对不同尺度的无人机航拍图像特征图进行上采样和特征融合后获得不同尺度的张量数据;
(4)对步骤(3)得到的不同尺度的张量数据,将其输入到改进的YOLO V5网络中的预测层部分,在预测层部分优化剔除大检测头与自适应调整锚框,最终计算得到无人机航拍目标的检测框;
(5)对步骤(4)得到的无人机航拍目标的检测框,利用泛化交并比、平均精度与推理速度3个参数进行评价;
步骤(2)的具体方法是:
(21)在YOLO V5网络的主干网络部分将Focus模块中的切片层替换为卷积层,即将切片操作用卷积操作替换来进行特征提取;接着将特征图输出到卷积层模块处理特征图的传播出现梯度消失的问题,卷积层模块由卷积、批量归一化、Leaky激活函数构成,其中批量归一化定义如下:
式中,为归一化损失函数,x(k)为经过该层线性变换后的损失函数值,E[·]表示损失函数值的均值,Var是均方差操作符;
Leaky激活函数定义如下:
式中,f(i)为Leaky激活函数,i表示特征图输入值;
(22)将步骤(21)处理后的特征图输入到跨阶段局部网络模块进行优化处理,减小网络模型尺寸;
(23)将步骤(22)处理后的特征图输入到空间金字塔池化模块,空间金字塔池化模块利用空间金字塔池化操作对输入的特征图进行处理,获得多尺度的无人机航拍图像特征图;
步骤(4)的具体方法是:
将步骤(3)得到的不同尺度的张量数据输入到改进的YOLO V5网络中的预测层部分,预测层由卷积层和三个大小分别为76×76×255、38×38×255、19×19×255的检测头组成;首先将针对大目标的76×76×255的检测头优化剔除,接着自适应调整锚框,即将原始的锚框调整为[10,14,23,27,37,58]与[81,82,135,169,344,319],最后基于损失函数及反向传播输出无人机航拍目标的检测框。
2.根据权利要求1所述的基于改进YOLO V5的无人机航拍图像目标检测方法,其特征在于,步骤(3)的具体方法是:
将步骤(2)得到的多尺度图像特征图输入到改进的YOLO V5网络中的Neck部分,Neck部分由卷积层模块、跨阶段局部网络、系列特征融合模块、上采样模块组成,Neck在特征金字塔网络的基础上引入了自下而上的路径增强结构,细化主干网络输出的图像特征矩阵,并输出不同尺度的张量数据。
3.根据权利要求1所述的一种基于改进YOLO V5的无人机航拍图像目标检测方法,其特征在于,步骤(5)的具体方法是:
泛化交并比为回归目标框损失函数,其计算公式如下:
式中,GIOU表示泛化交并比,IOU表示交并比,A、B表示任意的两个无人机航拍目标的检测框,C表示一个能够包住A,B的最小方框,|C\A∪B|表示为C减去A与B并集的面积,|C|表示为C的面积,|A∪B|表示A框与B框并集的面积,|A∩B|表示A框与B框交集的面积;
采用平均精度作为衡量多标签图像检测精度的指标,平均精度通过绘制PR曲线计算得到,即以precision和recall作为纵、横轴坐标的二维曲线,precision为准确率,recall为召回率;推理速度定义为一秒钟可检测图像的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111155472.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种眼影盒注塑模具及其制造方法
- 下一篇:一种带茶叶复火烘焙功能的电茶炉