[发明专利]基于改进的k-means和损失函数的行人检测方法有效
| 申请号: | 201910202078.4 | 申请日: | 2019-03-18 |
| 公开(公告)号: | CN109978035B | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 郭杰;郑佳卉;吴宪云;李云松;解静;邱尚锋;林朋雨 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 改进 means 损失 函数 行人 检测 方法 | ||
本发明提出了一种基于改进的k‑means和损失函数的行人检测方法,用于对包含行人目标的视频或图像进行分类和识别,主要解决现有技术中聚类结果不准确和预测框不能根据自身尺寸特征学习损失的问题,实现步骤为:构建训练集和测试集;基于改进的k‑means算法对训练集进行聚类;对YOLOv3检测网络的损失函数进行改进;基于改进的损失函数对训练集进行训练;对测试集进行检测。本发明在聚类阶段筛除训练集标注信息中的无效数据,将得到的有效数据进行聚类,从而得到更精确的候选框初始化尺寸,还使不同预测框根据自身尺寸特征学习不同的预测损失,从而得到更准确的行人目标检测网络。
技术领域
本发明属于目标检测技术领域,涉及一种行人检测方法,具体涉及一种基于改进的k-means和改进的损失函数的行人检测方法,可用于对包含行人目标的视频或图像进行分类和识别。
背景技术
行人检测是指对视频或图像中行人的位置坐标和置信度进行检测,衡量检测结果的主要指标有检测精度和检测速度,其中最重要的衡量指标为检测精度,而检测精度往往受到行人特征和损失函数的影响。
目前,常用的行人检测方法依据对行人特征的提取方式不同可以分为基于传统算法的行人检测和基于深度学习的行人检测两类。
传统的行人检测方法主要有全局特征的检测方法、基于局部特征提取的检测方法和基于多特征的检测方法。基于全局特征的检测方法主要是通过整幅图的梯度方向直方图检测行人的轮廓从而找到行人的位置。基于局部特征提取的检测方法主要是提取输入图片的局部特征通过匹配行人特征进行检测。基于多特征的检测方法主要是对灰度,轮廓等多种类型特征进行提取检测并综合这些特征的检测结果。以上三种方法的共同优点是简单快速,但是由于行人特征对光照、背景和遮挡等因素比较敏感,在检测时容易引入背景噪声和光线干扰,因此传统的行人检测方法检测精度较低。
深度学习的发展为行人检测的研究带来了新的思路。基于深度学习的行人检测方法主要有基于候选框选取的检测方法和基于端到端的检测方法,基于候选框选取的检测方法主要是人工选取候选框再进行网络训练,尽管该方法具有良好的检测效果,但由于其事先选取候选框导致网络的检测效率很低。
近年来,基于端到端的检测方法由于其具有较好的检测精度和检测效率逐渐成为行人检测领域的主流方法,该方法以基于深度学习的目标检测网络为基础网络,利用聚类的方法对候选框的尺寸进行初始化,从而让候选框的初始尺寸接近行人特征的尺寸,使得网络更加容易收敛,然后利用损失函数对训练集进行训练,得到行人检测网络模型,最后使用行人检测网络模型对测试集图片进行检测得到所有行人目标的位置坐标和置信度。然而目前大多数行人检测算法所采用的基础网络检测精度仍不理想,如YOLOv1、YOLOv2等,因此这些行人目标检测算法的检测精度均较低。例如,申请公布号为CN 109325418A,名称为“基于改进YOLOv3的道路交通环境下行人识别方法”的专利申请,公开了一种通过改进的YOLOv3进行行人检测的方法。该方法以YOLOv3为基础网络,首先在使用k-means聚类的过程中增加了候选框的个数,从而增加了网络提取特征的能力,然后又在网络利用损失函数进行训练时,增大了损失函数中的坐标损失函数的权重,得到行人检测网络模型。但该方法在使用k-means进行聚类时没有考虑到训练集中标注信息无效的情况,使得聚类结果不准确;并且该方法在计算损失时没有考虑不同尺寸预测框对坐标损失函数中的坐标误差和宽高误差学习比重不同的问题,使得预测框不能根据自身尺寸特征学习损失。因此,如何筛选出训练集标注信息中的有效数据和计算更为准确的损失仍是该领域亟待解决的问题。
发明内容
本发明的目的在于针对上述已有的行人检测技术的不足,提出一种基于改进的k-means和损失函数的行人检测方法,旨在提高不同场景下行人目标的检测精度。
本发明的技术思路是:首先构建训练集和测试集,其次使用改进的k-means聚类算法对训练集的标注信息进行聚类,并将聚类结果作为YOLOv3网络候选框的尺寸初始化值,然后基于YOLOv3网络中改进的损失函数对训练集进行训练,最后利用训练好的行人检测网络模型对测试集进行检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910202078.4/2.html,转载请声明来源钻瓜专利网。





