[发明专利]一种加速目标检测算法训练的数据集处理方法有效
| 申请号: | 202110853633.7 | 申请日: | 2021-07-28 |
| 公开(公告)号: | CN113313213B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 王纵驰;王建兴;刘健;臧媛媛;王培;于佳耕 | 申请(专利权)人: | 中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
| 地址: | 100088 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 加速 目标 检测 算法 训练 数据 处理 方法 | ||
一种加速目标检测算法训练的数据集处理方法,包括:(1)获取锚框类目标检测算法所需的训练用数据集;(2)数据集数据分析,提取数据集中所有标注框的特征作为待处理数据的划分依据;(3)数据集聚类,使用聚类算法,按照小、中、大三个尺度对特征进行聚类划分;(4)数据集划分;(5)模型训练,构成三阶训练体系,并按照先验知识对批处理数据簇进行分步训练;提高了深度学习数据集的训练效率,使用灵活方便,极大的加速了训练进度从而缩短训练时间。
技术领域
本发明属于计算机图像视觉深度学习技术数据集处理领域,具体涉及一种锚框类目标检测算法的数据集处理方法。
背景技术
现有加速目标检测算法训练方法目前主要有随机小批量数据加载训练法,即在训练过程中通过在数据集中随机采样生成批数据进行训练。此方法操作步骤少、使用简单,但训练所需时间长,同时由于采样过程的随机性会造成不同随机初始值训练出的算法模型精度波动大、不稳定。
发明内容
针对上述不足,本发明提供了一种加速目标检测算法训练的数据集处理方法,其特征在于,包括:
(1)获取锚框类目标检测算法所需的训练用数据集;
(2)数据集数据分析,提取数据集中所有标注框的特征作为待处理数据的划分依据。
(3)数据集聚类,将步骤(2)提取出的特征作为聚类算法的相似性距离计算依据;根据先验的目标检测网络多尺度目标通用处理规则,使用聚类算法,按照小、中、大三个尺度对特征进行聚类划分;
(4)数据集划分,以步骤(3)所得出的三个聚类中心为不同数据簇的中心对整个数据集进行划分,计算数据集中数据到三个聚类中心的距离并排序从而将数据集按照尺度变化划分为大、中、小三个数据簇;在三个数据簇内分别进行随机采样直至将数据集整理成三组批处理数据簇;
(5)模型训练,先使用容易训练的大尺度目标对整个模型网络进行有效训练,然后再使用小尺度目标进行多尺度识别推理和更高精度的区域框回归训练,并且模型训练递归执行,构成三阶训练体系,并按照先验知识对批处理数据簇进行分步训练。
本发明创造的优点:
与常规方法相比,实现了在相同数据规模下,该算法极大的缩减了深度学习模型训练过程所需的时间,同时保持了高精度性等优良特质。本发明提出的方法通过数据聚类技术利用先验知识对数据集进行划分从而生成相应批数据依次训练,优化了深度学习数据集训练策略,提高了深度学习数据集的训练效率,使用灵活方便,极大的加速了训练进度从而缩短训练时间,与此同时训练出的模型仍能保持高精度,可以很好地解决目前已有方法存在的问题。
附图说明
图1是训练流程示意图;
图2是聚类结果示意图。
具体实施方式
下面结合附图对本发明作进一步描述,应当理解,此处所描述的内容仅用于说明和解释本发明,并不用于限定本发明。
本申请的加速训练数据集处理方法,依照先验知识以及数据聚类技术对数据集处理从而生成训练用批数据。具体步骤如图1所示,如下:
(1)获取锚框类目标检测算法所需的训练用数据集,该数据集由指定识别任务类型确定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所,未经中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853633.7/2.html,转载请声明来源钻瓜专利网。





