[发明专利]一种基于三阶级联架构的YOLOv3的远景目标检测方法有效
| 申请号: | 202110534466.X | 申请日: | 2021-05-17 |
| 公开(公告)号: | CN113239813B | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 张学睿;尚明生;张帆;姚远;郑志浩 | 申请(专利权)人: | 中国科学院重庆绿色智能技术研究院;重庆大学 |
| 主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/774;G06V10/34;G06V10/762;G06V10/75;G06N3/04;G06N3/08 |
| 代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
| 地址: | 400714 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 阶级 架构 yolov3 远景 目标 检测 方法 | ||
1.一种基于三阶级联架构的YOLOv3的远景目标检测方法,其特征在于,该方法具体包括以下步骤:
S1:构建目标检测模型:将准备好的远景农作物图片作为样本图片,再使用视觉相干混合技术和几何手段进行数据增强,形成远景数据集后再使用图像标注软件进行标注,最后通过三阶级联架构的YOLOv3算法进行训练,生成目标检测模型;构建目标检测模型的具体步骤包括:
S101:准备远景农作物样本图像作为数据集;
S102:采用视觉相干混合技术处理数据集,找到和数据集总数量相同且大小一样的其它农作物的图片,按0.1:0.9的比例将两个数据集在像素层面上进行混合,得到混合后的远景数据集;
S103:对混合后的远景数据集采用几何手段进行数据增强,对一半的图片采用随机水平翻转,对另一半的图片采用随机颜色抖动,包括调整亮度、色调、饱和度以及对比度,将所有图片放在一起,形成最终用来训练的远景数据集;
S104:通过图像标注软件LabelImg对图像进行数据标注,生成与所标注图片文件名相同的xml文件;
S105:使用K_Means算法计算样本数据集的聚类中心,对于远景数据集,将传统YOLOv3设置的九个聚类中心增加到十二个聚类中心;
S106:将样本数据集按照4:2:4的比例划分为训练集、验证集和测试集;
S107:将训练集图片调整成不同尺寸构建图像金字塔输入网络中,经过三阶级联架构与Darknet53提取图片的特征,将特征进行按照随机权重进行融合并把融合后的特征送到三个YOLO检测层中,将特征图划分为三个不同数量的单元格,输出带有YOLO层所画预测框的图;
S108:对比YOLO层所画预测框和anchor的坐标,采用logistic方式回归坐标偏移量;
S109:同时使用logistic回归对每个检测框中存在物体的可能性进行评分,记为置信度,选出置信度最高的检测框保留,其余框删除;
S110:置信度评分后,网络会对检测框中的物体进行分类;
S111:将预测结果同训练集的标注进行比较,判断是否训练完,如果未训练完成,则根据比较结果和损失函数继续训练;如果训练完成,则结束训练,生成权重;
S112:将形成的权重通过剪枝算法,设置剪枝系数,缩小权重的大小及参数量,形成最终的目标检测模型;
S2:采集检测目标的视频图像,输入目标检测模型中进行目标检测,得到含有置信得分的目标图;进行目标检测的具体步骤包括:
S201:输入一张任意大小的图片,保持图片的长宽比不变并将图片尺寸随机缩放到16的倍数,形成归一化图像输入网络;
S202:通过三阶的级联卷积神经网络对任务进行从粗到细进行处理;
三阶级联的每个阶段的网络都是一个多任务网络;处理任务有三个:物体/非物体判定、物体检测框回归和特征点定位;其中,物体/非物体判定采用cross-entropy损失函数,物体检测回归采用欧式距离损失函数,特征点定位采用欧式距离损失函数;
S203:将经过级联架构处理后的图像,通过YOLOv3的主干网络,采用残差结构和小卷积核提取图片特征,并将其每层特征层按随机权重分配后进行特征融合;按浅层特征与深层特征对检测功能的贡献度不同,将浅层特征层赋予权重在0~0.5之间的随机数w1,后面的深层特征则赋予0.5-1之间的随机数w2;
p(yi|x)=soft max(g(vx)+w1*fi(vx)+w2fj(vx))
其中,vx表示某一张被预测为x的图片,g为网络层最后层的卷积函数,fi表示浅层的卷积函数,fj表示第二层卷积函数;
S204:使用特征金字塔结构,设置三个不同尺寸的检测层分别针对大目标和小目标进行检测,并以此输出一个13*13×25的张量,一个26*26*25和一个52*52*25的张量;其中,在每个预测向量中,第1~5维为对应网格的第一个预测边框及其置信度,第6~10维为对应网格的第二个预测边框及其置信度,第11~15维为对应网格的第三个预测边框及其置信度,第16~20维为对应网格的第四个预测边框及其置信度,第21~25维对应网格中检测到的目标所属对应类别的概率;
S205:通过设置置信度阈值,将低于置信度阈值的预测边框删除;
S3:通过非极大值抑制算法比较置信度得分,得到目标的位置信息和置信度信息;
S4:根据得到的位置信息,对目标个数进行计算总数,得到最终的目标位置信息和数量信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院;重庆大学,未经中国科学院重庆绿色智能技术研究院;重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534466.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种BI系统图表查询自动化测试方法
- 下一篇:文本意图识别模型的训练方法





