[发明专利]一种基于三阶级联架构的YOLOv3的远景目标检测方法有效

申请号：	202110534466.X	申请日：	2021-05-17
公开（公告）号：	CN113239813B	公开（公告）日：	2022-11-25
发明（设计）人：	张学睿;尚明生;张帆;姚远;郑志浩	申请（专利权）人：	中国科学院重庆绿色智能技术研究院;重庆大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V10/774;G06V10/34;G06V10/762;G06V10/75;G06N3/04;G06N3/08
代理公司：	重庆强大凯创专利代理事务所(普通合伙) 50217	代理人：	赵玉乾
地址：	400714 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于阶级架构 yolov3 远景目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于三阶级联架构的YOLOv3的远景目标检测方法，其特征在于，该方法具体包括以下步骤：

S1：构建目标检测模型：将准备好的远景农作物图片作为样本图片，再使用视觉相干混合技术和几何手段进行数据增强，形成远景数据集后再使用图像标注软件进行标注，最后通过三阶级联架构的YOLOv3算法进行训练，生成目标检测模型；构建目标检测模型的具体步骤包括：

S101：准备远景农作物样本图像作为数据集；

S102：采用视觉相干混合技术处理数据集，找到和数据集总数量相同且大小一样的其它农作物的图片，按0.1：0.9的比例将两个数据集在像素层面上进行混合，得到混合后的远景数据集；

S103：对混合后的远景数据集采用几何手段进行数据增强，对一半的图片采用随机水平翻转，对另一半的图片采用随机颜色抖动，包括调整亮度、色调、饱和度以及对比度，将所有图片放在一起，形成最终用来训练的远景数据集；

S104：通过图像标注软件LabelImg对图像进行数据标注，生成与所标注图片文件名相同的xml文件；

S105：使用K_Means算法计算样本数据集的聚类中心，对于远景数据集，将传统YOLOv3设置的九个聚类中心增加到十二个聚类中心；

S106：将样本数据集按照4：2：4的比例划分为训练集、验证集和测试集；

S107：将训练集图片调整成不同尺寸构建图像金字塔输入网络中，经过三阶级联架构与Darknet53提取图片的特征，将特征进行按照随机权重进行融合并把融合后的特征送到三个YOLO检测层中，将特征图划分为三个不同数量的单元格，输出带有YOLO层所画预测框的图；

S108：对比YOLO层所画预测框和anchor的坐标，采用logistic方式回归坐标偏移量；

S109：同时使用logistic回归对每个检测框中存在物体的可能性进行评分，记为置信度，选出置信度最高的检测框保留，其余框删除；

S110：置信度评分后，网络会对检测框中的物体进行分类；

S111：将预测结果同训练集的标注进行比较，判断是否训练完，如果未训练完成，则根据比较结果和损失函数继续训练；如果训练完成，则结束训练，生成权重；

S112：将形成的权重通过剪枝算法，设置剪枝系数，缩小权重的大小及参数量，形成最终的目标检测模型；

S2：采集检测目标的视频图像，输入目标检测模型中进行目标检测，得到含有置信得分的目标图；进行目标检测的具体步骤包括：

S201：输入一张任意大小的图片，保持图片的长宽比不变并将图片尺寸随机缩放到16的倍数，形成归一化图像输入网络；

S202：通过三阶的级联卷积神经网络对任务进行从粗到细进行处理；

三阶级联的每个阶段的网络都是一个多任务网络；处理任务有三个：物体/非物体判定、物体检测框回归和特征点定位；其中，物体/非物体判定采用cross-entropy损失函数，物体检测回归采用欧式距离损失函数，特征点定位采用欧式距离损失函数；

S203：将经过级联架构处理后的图像，通过YOLOv3的主干网络，采用残差结构和小卷积核提取图片特征，并将其每层特征层按随机权重分配后进行特征融合；按浅层特征与深层特征对检测功能的贡献度不同，将浅层特征层赋予权重在0～0.5之间的随机数w1，后面的深层特征则赋予0.5-1之间的随机数w2；

p(y_i|x)＝soft max(g(v_x)+w₁*f_i(v_x)+w₂f_j(v_x))

其中，v_x表示某一张被预测为x的图片，g为网络层最后层的卷积函数，f_i表示浅层的卷积函数，f_j表示第二层卷积函数；

S204：使用特征金字塔结构，设置三个不同尺寸的检测层分别针对大目标和小目标进行检测，并以此输出一个13*13×25的张量，一个26*26*25和一个52*52*25的张量；其中，在每个预测向量中，第1～5维为对应网格的第一个预测边框及其置信度，第6～10维为对应网格的第二个预测边框及其置信度，第11～15维为对应网格的第三个预测边框及其置信度，第16～20维为对应网格的第四个预测边框及其置信度，第21～25维对应网格中检测到的目标所属对应类别的概率；

S205：通过设置置信度阈值，将低于置信度阈值的预测边框删除；

S3：通过非极大值抑制算法比较置信度得分，得到目标的位置信息和置信度信息；

S4：根据得到的位置信息，对目标个数进行计算总数，得到最终的目标位置信息和数量信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院;重庆大学，未经中国科学院重庆绿色智能技术研究院;重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110534466.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种BI系统图表查询自动化测试方法
下一篇：文本意图识别模型的训练方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于三阶级联架构的YOLOv3的远景目标检测方法有效

专利文献下载