[发明专利]一种基于三阶级联架构的YOLOv3的远景目标检测方法有效

专利信息
申请号: 202110534466.X 申请日: 2021-05-17
公开(公告)号: CN113239813B 公开(公告)日: 2022-11-25
发明(设计)人: 张学睿;尚明生;张帆;姚远;郑志浩 申请(专利权)人: 中国科学院重庆绿色智能技术研究院;重庆大学
主分类号: G06V10/82 分类号: G06V10/82;G06V10/774;G06V10/34;G06V10/762;G06V10/75;G06N3/04;G06N3/08
代理公司: 重庆强大凯创专利代理事务所(普通合伙) 50217 代理人: 赵玉乾
地址: 400714 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 阶级 架构 yolov3 远景 目标 检测 方法
【权利要求书】:

1.一种基于三阶级联架构的YOLOv3的远景目标检测方法,其特征在于,该方法具体包括以下步骤:

S1:构建目标检测模型:将准备好的远景农作物图片作为样本图片,再使用视觉相干混合技术和几何手段进行数据增强,形成远景数据集后再使用图像标注软件进行标注,最后通过三阶级联架构的YOLOv3算法进行训练,生成目标检测模型;构建目标检测模型的具体步骤包括:

S101:准备远景农作物样本图像作为数据集;

S102:采用视觉相干混合技术处理数据集,找到和数据集总数量相同且大小一样的其它农作物的图片,按0.1:0.9的比例将两个数据集在像素层面上进行混合,得到混合后的远景数据集;

S103:对混合后的远景数据集采用几何手段进行数据增强,对一半的图片采用随机水平翻转,对另一半的图片采用随机颜色抖动,包括调整亮度、色调、饱和度以及对比度,将所有图片放在一起,形成最终用来训练的远景数据集;

S104:通过图像标注软件LabelImg对图像进行数据标注,生成与所标注图片文件名相同的xml文件;

S105:使用K_Means算法计算样本数据集的聚类中心,对于远景数据集,将传统YOLOv3设置的九个聚类中心增加到十二个聚类中心;

S106:将样本数据集按照4:2:4的比例划分为训练集、验证集和测试集;

S107:将训练集图片调整成不同尺寸构建图像金字塔输入网络中,经过三阶级联架构与Darknet53提取图片的特征,将特征进行按照随机权重进行融合并把融合后的特征送到三个YOLO检测层中,将特征图划分为三个不同数量的单元格,输出带有YOLO层所画预测框的图;

S108:对比YOLO层所画预测框和anchor的坐标,采用logistic方式回归坐标偏移量;

S109:同时使用logistic回归对每个检测框中存在物体的可能性进行评分,记为置信度,选出置信度最高的检测框保留,其余框删除;

S110:置信度评分后,网络会对检测框中的物体进行分类;

S111:将预测结果同训练集的标注进行比较,判断是否训练完,如果未训练完成,则根据比较结果和损失函数继续训练;如果训练完成,则结束训练,生成权重;

S112:将形成的权重通过剪枝算法,设置剪枝系数,缩小权重的大小及参数量,形成最终的目标检测模型;

S2:采集检测目标的视频图像,输入目标检测模型中进行目标检测,得到含有置信得分的目标图;进行目标检测的具体步骤包括:

S201:输入一张任意大小的图片,保持图片的长宽比不变并将图片尺寸随机缩放到16的倍数,形成归一化图像输入网络;

S202:通过三阶的级联卷积神经网络对任务进行从粗到细进行处理;

三阶级联的每个阶段的网络都是一个多任务网络;处理任务有三个:物体/非物体判定、物体检测框回归和特征点定位;其中,物体/非物体判定采用cross-entropy损失函数,物体检测回归采用欧式距离损失函数,特征点定位采用欧式距离损失函数;

S203:将经过级联架构处理后的图像,通过YOLOv3的主干网络,采用残差结构和小卷积核提取图片特征,并将其每层特征层按随机权重分配后进行特征融合;按浅层特征与深层特征对检测功能的贡献度不同,将浅层特征层赋予权重在0~0.5之间的随机数w1,后面的深层特征则赋予0.5-1之间的随机数w2;

p(yi|x)=soft max(g(vx)+w1*fi(vx)+w2fj(vx))

其中,vx表示某一张被预测为x的图片,g为网络层最后层的卷积函数,fi表示浅层的卷积函数,fj表示第二层卷积函数;

S204:使用特征金字塔结构,设置三个不同尺寸的检测层分别针对大目标和小目标进行检测,并以此输出一个13*13×25的张量,一个26*26*25和一个52*52*25的张量;其中,在每个预测向量中,第1~5维为对应网格的第一个预测边框及其置信度,第6~10维为对应网格的第二个预测边框及其置信度,第11~15维为对应网格的第三个预测边框及其置信度,第16~20维为对应网格的第四个预测边框及其置信度,第21~25维对应网格中检测到的目标所属对应类别的概率;

S205:通过设置置信度阈值,将低于置信度阈值的预测边框删除;

S3:通过非极大值抑制算法比较置信度得分,得到目标的位置信息和置信度信息;

S4:根据得到的位置信息,对目标个数进行计算总数,得到最终的目标位置信息和数量信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院;重庆大学,未经中国科学院重庆绿色智能技术研究院;重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110534466.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top