[发明专利]基于改进的k-means和损失函数的行人检测方法有效

专利信息
申请号: 201910202078.4 申请日: 2019-03-18
公开(公告)号: CN109978035B 公开(公告)日: 2021-04-02
发明(设计)人: 郭杰;郑佳卉;吴宪云;李云松;解静;邱尚锋;林朋雨 申请(专利权)人: 西安电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 陕西电子工业专利中心 61205 代理人: 陈宏社;王品华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于改进的k‑means和损失函数的行人检测方法,用于对包含行人目标的视频或图像进行分类和识别,主要解决现有技术中聚类结果不准确和预测框不能根据自身尺寸特征学习损失的问题,实现步骤为:构建训练集和测试集;基于改进的k‑means算法对训练集进行聚类;对YOLOv3检测网络的损失函数进行改进;基于改进的损失函数对训练集进行训练;对测试集进行检测。本发明在聚类阶段筛除训练集标注信息中的无效数据,将得到的有效数据进行聚类,从而得到更精确的候选框初始化尺寸,还使不同预测框根据自身尺寸特征学习不同的预测损失,从而得到更准确的行人目标检测网络。
搜索关键词: 基于 改进 means 损失 函数 行人 检测 方法
【主权项】:
1.一种基于改进的k‑means和损失函数的行人检测方法,其特征在于,包括如下步骤:(1)构建训练集和测试集:(1a)将采集的任意场景下行人视频中连续或非连续的N帧图像以jpg图片的形式保存到JPEGImages文件夹中,并对各幅图片进行命名,N>10000;(1b)将JPEGImages文件夹中半数以上的图片作为训练图片集,其余图片作为测试图片集,并将训练图片集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中,同时将测试图片集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中;(1c)对训练图片集和测试图片集中的每幅图片所包含的不同行人进行画框标注,并保存标注框的坐标数据,然后将标注框中所包含的行人目标的类别person以及每幅图片中包含的标注框的坐标数据保存到xml文件中,得到由多个xml文件组成的Annotations文件夹,其中每个xml文件的名称与其对应行人图片的名称相同;(1d)将从Annotations文件夹中选取的与trainval.txt文件中图片名称相同的xml文件作为训练图片集的标注信息集,与test.txt文件中图片名称相同的xml文件作为测试图片集的标注信息集,并将训练图片集的标注信息集写入darknet文件夹下的train.txt文件中,将测试图片集的标注信息集写入darknet文件夹下的test.txt文件中,所述训练图片集和其对应的xml标注信息集构成训练集,测试图片集和其对应的xml标注信息集构成测试集;(2)基于改进的k‑means算法对训练集进行聚类:(2a)对训练集中的标注信息进行筛选:(2a1)将从训练集对应的xml标注文件中提取到的坐标数据写入长度为l的数组data_xml中,将从data_xml中读取的第一组坐标数据作为当前坐标数据,并初始化其在data_xml中的当前索引值q=0;(2a2)定义data_xml中q对应的坐标数据:将标注框左上角对应的x轴投影坐标定义为xmin,标注框左上角对应的y轴投影坐标定义为ymin,标注框右下角对应的x轴投影坐标定义为xmax,标注框右下角对应的y轴投影坐标定义为ymax;(2a3)计算xmin与xmax的差值xd,ymin与ymax的差值yd,并判断xd和yd对应的data_xml中的数据是否为有效数据,若xd=0或yd=0,则xd和yd对应的data_xml中的数据为无效数据,删除该无效数据,l=l‑1,并执行步骤(2a2);若xd≠0且yd≠0,则xd和yd对应的data_xml中的数据为有效数据,执行步骤(2a4);(2a4)计算xd与yd的商div,并根据div>3是否成立判断div对应的data_xml中的数据的有效性,若是,则div对应的data_xml中的数据为无效数据,删除该无效数据,l=l‑1,并执行步骤(2a5),否则,则div对应的data_xml中的数据为有效数据,令q=q+1,并执行步骤(2a5);(2a5)重复执行步骤(2a2)~(2a4)直到q=l,得到有效标注信息;(2b)对有效标注信息进行聚类:(2b1)设聚类中心的个数为k,k>0,构建以data_xml的长度l为行数,以k为列数的二维矩阵data_k,data_k的行表示data_xml中保存的有效标注信息,列表示聚类中心的值,并初始化data_k为0,;(2b2)对k个聚类中心分别进行随机初始化;(2b3)计算data_xml中l个有效标注信息与k个聚类中心的距离值,并将每个距离值写入data_k中有效标注信息对应的行和聚类中心对应的列所在的位置;(2b4)将data_k中每一行对应的有效标注信息作为该每一行中最小距离值所在的列对应聚类中心的成员,并将每个聚类中心的数值更新为由该每个聚类中心成员宽和高的均值;(2b5)重复步骤(2b3)和(2b4),直到k个聚类中心的值不再变化为止,并将k个聚类中心的值作为聚类结果;(3)对YOLOv3检测网络的损失函数进行改进:将YOLOv3检测网络损失函数中的坐标损失函数修改为Loss'coordti=2‑wi×hi其中,λcoord表示网络对预测框坐标的权重参数,l.w表示网络在图片宽上划分的尺寸,l.h表示网络在图片高上划分的尺寸,l.n表示网络中预测框的个数,i为对l.w×l.h迭代的变量,j为对l.n迭代的变量,wi表示预测框的宽,表示标注框的宽,hi表示预测框的高,表示标注框的高,xi表示预测框的左上角坐标在x轴的投影,表示xmin,yi表示预测框的左上角坐标在y轴的投影,表示ymin;(4)基于改进的损失函数对训练集进行训练:(4a)将聚类结果作为YOLOv3网络候选框的尺寸初始化值;(4b)基于YOLOv3网络中改进的损失函数对训练集进行K次迭代训练,K>10000,得到行人检测网络模型;(5)对测试集进行检测:将待检测的测试集输入到行人检测网络模型中进行检测,得到每个行人目标的位置坐标和置信度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910202078.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top