[发明专利]一种不完备数据集中平衡输入数据类别多目标检测方法有效
申请号: | 202011323339.7 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112633319B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 杨静;李少波;吉晓阳;杨观赐;柳庭卿;白强 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京翔石知识产权代理事务所(普通合伙) 11816 | 代理人: | 李勇 |
地址: | 55002*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 完备 数据 集中 平衡 输入 类别 多目标 检测 方法 | ||
本发明涉及一种不完备数据集中平衡输入数据类别多目标检测方法,本发明通过运用Batch Size平衡数据集类别方法处理因不平衡数据引起模型训练过程中的不稳定性挑战,在不影响原始数据分布的情况下,基于训练数据集类别分布情况平衡Batch Size的输入,使神经网络在每次迭代过程的数据类别均衡并采用多策略的Batch Normalization的方法去平衡训练过程中每个类别的输入数据,确定训练过程中的迭代次数,减少模型在训练过程中过学习和欠学习的情况,将利普希茨连续函数与深度学习的多策略Batch Normalization平衡输入数据方法进行结合,建立满足利普希茨连续函数等式,分析不平衡数据集的正负样本在输入给神经网络模型中,提高检测模型的稳定性,解决数据不平衡分布问题。
技术领域
本发明涉及图像数据采集技术领域,尤其涉及一种不完备数据集中平衡输入数据类别多目标检测方法。
背景技术
近年来,随着深度学习得发展,目标检测模型已经取得了较大的进步。主流的目标检测方法包括Two-stage detectors和One-stage detectors方法。Two-stage detectors目标检测网络首先拟合一系列样本候选区域,再通过卷积神经网络对候选区域进行样本分类,这类算法的识别错误率低,速度慢。相较于Two-Stage detectors方法,One-stageDetectors方法不需要候选区域生成阶段,直接在候选区域中产生检测对象的类别概率和位置坐标值,因此有着比Two-Stage Detectors更快的检测速度。但单张图片中存在多个类别,且目标类别间存在数量不均衡问题,使深度学习模型因为输入数据不同而造成训练过程中出现梯度不稳定现象,甚至造成过学习和欠学习等问题。
样本数量类别不均衡问题使得模型在训练过程中存在严重的不稳定性。专家、学者们提出了许多改进方法来缓解该问题,大致可分为3类:一是通过减少多数类样本的欠采样方法和通过增加少数类样本的过采样方法;二是优化神经网络运算过程,如Batch-Normalization和优化损失函数等方法。三是采用数据扩增的方法扩增训练数据,主要包括:图像空间的数据扩增和特征空间/属性引导的数据扩增;尽管以上方法都不同程度上取得了较好得实验结果,但通过优化损失函数的方法是独立与数据的,缺少对数据属性和数据分布的探索。虽然采用过采样和欠采样的方法平衡了不同类别数据的分布,但过采样方法只是重复了正例样本的分布,这种重复采样方法容易引起对正例样本的过拟合,而欠采样方法抛弃了大部分反例数据,可能引起模型的偏差过大。过采样和欠采样的方法都影响了原有的数据分布;在训练过程中采用数据扩增的方法有效的增加了训练数据集,减少了因数据不均衡而引起的不稳定情况,但没有改变原有数据不平衡分布。
发明内容
为此,本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法,用以克服现有技术中数据不平衡分布的问题。
为实现上述目的,本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法,其为规范化Batch Size输入大小的过程,包括:
步骤a,对输入的数据进行清洗,对数据命名进行规范,检查图片文件所对应的标签文件是否为空,以确保每张图片中具有类别实体,没有损坏的文件;
步骤b,依次读取数据集中的Xml文件,获得每张图片中的图片类别,并按照不同的类别对图片进行排序;
步骤c,计算训练数据集中Ci个类别的图片数量,包含Bounding Box数量最少的类别(Ci)min和Bounding Box数据量最多的类别(Ci)max以及其它类别中Bounding Box的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011323339.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置