[发明专利]一种目标检测训练样本筛选方法有效
| 申请号: | 202110093092.2 | 申请日: | 2021-01-25 |
| 公开(公告)号: | CN112418362B | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 宋志龙 | 申请(专利权)人: | 浙江啄云智能科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 310051 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 检测 训练 样本 筛选 方法 | ||
本发明公开了一种目标检测训练样本筛选方法,利用训练过程中得到的不同阶段的模型检测训练集数据中的目标,得到每个图像样本在不同阶段的模型M上的检测结果。对每个图像样本在不同阶段模型的检测结果进行筛选,获取完全遗忘样本和部分遗忘样本。通过模型代替人工去分析数量庞大的目标检测数据集中的噪音样本,节省了人力且消除了人为筛选数据的主观影响,提高了利用深度学习方法执行目标检测任务的效率以及准确率。
技术领域
本发明属于目标检测技术领域,具体涉及一种目标检测训练样本筛选方法。
背景技术
近年来,随着人工智能技术的不断发展,深度学习技术已经在计算机视觉领域的分类、识别、检测、分割、跟踪等任务中都取得了突破性的进展。相较于传统的机器视觉方法,深度卷积神经网络在大数据的训练下,从大量数据中学习出有用的特征,具有速度快、精度高、成本低等优势。但是,深度学习能达到这种优于传统方法的很大一部分原因是因为深度学习是建立在大量数据的基础上的,特别是在目标检测领域,深度学习更是需要大量的、有效的数据。为了提供足够量的有效数据,当前主流的做法就是数据增强,也出现了很多其他样本生成方法,但是在获取到足够量的样本之后,不可避免的会有一些在训练初期能够被模型识别,在训练后期模型却识别不出了的噪音,称之为“遗忘样本”,遗忘样本对模型训练过程起着负面影响。
现阶段,对于数据集中的遗忘样本(比如错误标注等),一般需要人为去筛选,工作量巨大且不具有代表性,即存在部分样本,人主观认为是噪音,但是在模型看来并不是噪音或者不影响训练,进而影响了目标检测效果。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的技术缺陷,提供一种目标检测训练样本筛选方法,减少样本中的噪音提高样本有效率,进而提高利用深度学习方法执行目标检测过程中的检测效率以及准确率。
根据本发明的一个方面,提供一种目标检测训练样本筛选方法,包括:
利用训练过程中得到的不同阶段的模型检测训练集数据中的目标,得到每个图像样本在不同阶段的模型M上的检测结果。对每个图像样本进行如下处理:
设定在模型M的检测结果中所有预标注目标均存在与预标注类别一致且IOU≥A的识别框时,召回率recall=1;
所有预标注目标均不存在与预标注类别一致且IOU≥A的识别框时,召回率recall=0;
仅存在部分预标注目标的识别框与预标注类别一致且IOU≥A时,0<召回率recall<1;
其中,IOU为检测结果中的识别框区域与预标注的识别框区域的交并比;A为根据经验值设定的0-1的常数。
筛选在M1-Mm上recall>0,且在Mm+1-Mn上recall=0的图像样本作为完全遗忘样本;
筛选在M1-Mm上recall=1,且在Mm+1-Mn上0<recall<1的图像样本作为部分遗忘样本。
其中,m∈n,n为模型的阶段数,n>1的自然数。
优选的,n=m+1,A=0.5。
所述训练集由预标注的图像样本组成,预标注的信息可选的包括所属样本名称、目标类别、预标注的识别框坐标等信息。
所述不同阶段的模型选自加载了对训练集学习后的权重文件的模型,n与学习次数相对应。
所述检测结果可选的包含所属样本名称、识别出的目标类别、识别框坐标等信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江啄云智能科技有限公司,未经浙江啄云智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110093092.2/2.html,转载请声明来源钻瓜专利网。





