[发明专利]一种加速目标检测算法训练的数据集处理方法有效
| 申请号: | 202110853633.7 | 申请日: | 2021-07-28 |
| 公开(公告)号: | CN113313213B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 王纵驰;王建兴;刘健;臧媛媛;王培;于佳耕 | 申请(专利权)人: | 中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
| 地址: | 100088 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 加速 目标 检测 算法 训练 数据 处理 方法 | ||
1.一种加速目标检测算法训练的数据集处理方法,其特征在于,包括:
(1)获取锚框类目标检测算法所需的训练用数据集;
(2)数据集数据分析,提取数据集中所有标注框的特征作为待处理数据的划分依据;
(3)数据集聚类,将步骤(2)提取出的特征作为聚类算法的相似性距离计算依据;根据先验的目标检测网络多尺度目标通用处理规则,使用聚类算法,按照小、中、大三个尺度对特征进行聚类划分;
(4)数据集划分,以上一步骤(3)所得出的三个聚类中心为不同数据簇的中心对整个数据集进行划分,计算数据集中数据到三个聚类中心的距离并排序从而将数据集按照尺度变化划分为大、中、小三个数据簇;在三个数据簇内分别进行随机采样直至将数据集整理成三组批处理数据簇;
(5)模型训练,先使用容易训练的大尺度目标对整个模型网络进行有效训练,然后再使用小尺度目标进行多尺度识别推理和更高精度的区域框回归训练,并且模型训练过程递归执行,构成三阶训练体系,并按照先验知识对批处理数据簇进行分步训练;
步骤(5)中三阶训练包括如下三阶段:
(5-1)对训练模型初始化处理,提供大尺度批处理数据簇中的批数据进行训练;
(5-2)待(5-1)中模型的训练损失代价下降到训练损失小于经验训练损失终止值,此时认为大尺度数据的特征已经学习充分,逐步提供中尺度批数据并撤出训练完成的大尺度批数据;
(5-3)待(5-2)中模型的训练损失代价下降到训练损失小于经验训练损失终止值,逐步提供小尺度批数据并撤出训练完成的中尺度批数据。
2.根据权利要求1所述的加速目标检测算法训练的数据集处理方法,其特征在于,步骤(1)中数据集由指定识别任务类型确定。
3.根据权利要求1所述的加速目标检测算法训练的数据集处理方法,其特征在于,步骤(2)中提取特征要构建尺度空间来模拟目标锚框的尺度变化,以此表征在尺度空间中不同的目标锚框,获取数据集内所有标注框的高、宽属性信息作为特征。
4.根据权利要求3所述的加速目标检测算法训练的数据集处理方法,其特征在于,步骤(3)中依次将目标锚框映射为二维特征平面上的唯一特征点;
聚类算法如下:
(3-1)选择初始化的随机三个特征样本作为初始聚类中心;
(3-2)
选取二维欧氏距离函数作为相似性度量函数,针对数据集中每个样本计算它到(3-1)中所选取的三个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
(3-3)针对每个类别,重新计算它的聚类中心,即属于分类数据簇的所有样本的质心;
(3-4)重复上面(3-2)、(3-3)两步操作,直到达到各个质心的位置坐标不再变化,至此依照先验知识所进行的数据聚类完成。
5.根据权利要求1所述的加速目标检测算法训练的数据集处理方法,其特征在于,步骤(5)中还包括,
(5-4)在以上三个阶段(5-1)、(5-2)、(5-3)的批数据训练完成后,使用此时得到的训练模型对数据集进行评估划分,收集数据集中模型无法良好识别的数据作为难样本,按照上述步骤(1)-(4)重新制作训练数据并训练,直到模型在整个数据集上表现良好,至此训练结束。
6.根据权利要求1所述的加速目标检测算法训练的数据集处理方法,其特征在于,步骤(5)中,本方法中经验训练损失终止值为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所,未经中国航空油料集团有限公司;航天神舟智慧系统技术有限公司;中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853633.7/1.html,转载请声明来源钻瓜专利网。





