[发明专利]一种基于标签自提纯的深度学习方法有效
申请号: | 201710947264.1 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107679501B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 马文亚;刘昕;袁基睿;朱鹏飞;山世光 | 申请(专利权)人: | 中科视拓(北京)科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100086 北京市海淀区科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 提纯 深度 学习方法 | ||
本发明公开了一种基于标签自提纯的深度学习方法,其整体步骤为:构建大规模的带有标签噪声的真实条件下的人脸数据集;使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型;使用训练得到的深度人脸识别模型对数据集进行提取特征操作;利用提纯算法迭代地对数据集进行提纯操作;根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。本发明可以利用大规模带有标签噪声的人脸数据集,进而利用无监督的提纯方法迭代地进行数据的自提纯,然后将提纯后的数据用于构建大规模的数据集,从而在构建了一个大规模数据集的基础上可以训练得到具有理想精度的深度人脸识别模型进行相关的任务或应用。
技术领域
本发明涉及一种学习方法,尤其涉及一种基于标签自提纯的深度学习方法。
背景技术
基于卷积神经网络的深度人脸识别方法已经成为人脸识别领域的最有效的方法。但是这种方法严重依赖于大规模且标签精确的人脸数据集,而大规模的干净数据是很难获取的;同时,带有标签噪声的大规模数据集是比较方便获取的,但是直接使用这种带有标签噪声的数据进行模型的训练并不能得到性能满意的深度模型。因此,如何有效利用大规模的标签噪声数据进行模型的训练是一个亟待解决的问题。
目前,基于深度学习的标签噪声数据学习方法主要有:
1)标签噪声鲁棒算法:设计新型损失函数来对标签噪声数据进行直接训练,从而直接利用大规模标签噪声数据训练相关模型。该方法仍然会受到标签噪声数据的影响,并且这种方法只是在防止噪声标签过拟合时作用明显,另外当标签噪声数据在整个训练集中所占比例较高时,算法的性能并不能达到理想要求。
2)基于半监督的标签传播算法:利用正确的标签去分类未标注或者标注错误的样本以此来进行标签噪声样本的处理,进而将处理后的数据进行模型的训练。但是这种方法在实际应用中需要计算成对样本间的距离,因为算法具有平方复杂度所以无法将其用于处理大规模数据;同时这种方法前期需要人工的标注或者挑选,需要耗费一定的时间等资源,不具有快捷性和自动性。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种基于标签自提纯的深度学习方法。
为了解决以上技术问题,本发明采用的技术方案是:一种基于标签自提纯的深度学习方法,其整体步骤为:
步骤一、构建大规模的带有标签噪声的真实条件下的人脸数据集;
步骤二、使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型;
步骤三、使用训练得到的深度人脸识别模型对数据集进行提取特征操作;
步骤四、利用提纯算法迭代地对数据集进行提纯操作;
步骤五、根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。
进一步的,步骤一中构建人脸数据集的方法至少包括以下一种:
Ⅰ、使用爬取手段直接从互联网上爬取数据;
Ⅱ、利用相机或者其他拍摄设备获取数据;
Ⅲ、使用上述两个方法直接或者间接获取数据。
进一步的,步骤二中得到深度人脸识别模型的具体方法为:
a、对小规模的具有精确标签的人脸数据集进行五点对齐预处理,并且要保证数据的规模;
b、使用深度卷积神经网络进行模型的训练;
c、将训练得到的深度人脸识别模型在一些经典测试集上进行测试,观察测试所得正确率。
进一步的,步骤三中对数据集进行提取特征操作的具体方法为:
a、通过深度学习平台或另外实现的方式提供提取特征时的前向算法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科视拓(北京)科技有限公司,未经中科视拓(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710947264.1/2.html,转载请声明来源钻瓜专利网。