[发明专利]一种基于样本筛选的无标注车辆图片分类方法有效
申请号: | 202010114792.0 | 申请日: | 2020-02-25 |
公开(公告)号: | CN111368886B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 贺海;徐雪妙 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 筛选 标注 车辆 图片 分类 方法 | ||
1.一种基于样本筛选的无标注车辆图片分类方法,其特征在于,包括以下步骤:
1)数据获取
鉴于测试目标域数据集的标注成本昂贵,即高速公路的目标域数据集的标注成本昂贵,需要借助一个不同但相关的有标注的源域数据集,即城市道路的源域数据集,其中,高速公路的目标域数据集必须和城市道路的源域数据集中有相同类别的待分类的车辆,但是两个域车辆的角度和拍摄环境有区别;然后划分目标域数据集为训练数据集、验证数据集和测试数据集,源域数据集全为训练数据集;
2)数据处理
将源域数据集的图像、域标注和类别标注数据及目标域数据集的图像和域标注,通过预处理转化为训练车辆图片分类网络模型所需要的格式,然后成对地输入到车辆图片分类网络模型中;
3)模型构建
根据训练目标以及模型的输入输出形式,构造一个能够学习域不变特征的对抗深度神经网络模型,其由特征提取网络、对抗领域自适应网络和通用分类网络组成;
4)定义损失函数
根据训练目标以及模型的架构,除了必需的分类和域对抗度量损失函数,额外提出了特征层面和标注层面两个按样本重要性增强型损失函数,包括以下步骤:
4.1)定义特征级调控损失函数
基于模型压缩领域的特征模长越小则信息量越小的原则,能够推测出特征提取网络的输出特征模长,反映了样本的重要程度;对于重要的样本,在对抗领域自适应网络中要被相应地增强,即特征提取网络中特征模越大,在对抗领域自适应网络中特征模长也相应越大,反之对于异常值在特征提取网络中特征模长偏小,这样在作对抗训练的时候其对抗领域自适应网络特征模长也会相应越小,因此,为了实现样本筛选和对抗特征选择性增强目的,特征级调控损失函数能够定义为对抗特征模长和提取特征模长的最小二乘损失,公式如下所示:
式中,n表示样本总数,α表示缩减因子,Ds和Dt分别表示源域数据集和目标域数据集,xi表示输入的来自源域或目标域数据集的图片数据,fd(xi)表示对抗领域自适应网络输出特征向量,fg(xi)表示特征提取网络输出特征向量;
4.2)定义标注级调控损失函数
除了在特征级筛选样本,标注级的样本筛选依然值得考虑,熵最小化原则表明,分类器类别预测结果的熵能够有效帮助低密度类别间的分离,基于此能够推测出,对于重要的样本都集中在输出向量的熵小的地方,而异常值的熵大,即难以被分类器区分;为了实现对抗性域对齐过程中真实数据分布的预测,定义标注级调控损失函数来减弱异常值的影响,即通用分类器输出向量的熵作为筛选指标,通用分类器输出向量的熵越小,越不是异常值,对抗领域自适应网络在预测源域和目标域的输出向量的熵也应该越小,基于此,标注级调控损失函数定义为通用分类网络输出向量的熵作为权重,加权到对抗领域自适应网络输出的熵的最小化过程中,公式如下所示:
式中:n表示样本总数,Ds和Dt分别表示源域数据集和目标域数据集,xi表示输入的来自源域或目标域数据集的图片数据,H(g)=-∑glog(g)表示预测类别向量g的熵,即H(pd(xi))表示对抗领域自适应网络输出向量的熵,H(pg(xi))表示通用分类网络输出向量的熵;
4.3)定义对抗领域自适应损失函数
领域自适应的目的是将源域和目标域数据映射到同一个高维语义空间中,通过在该空间中将两个域数据分布对齐拉近;对抗领域自适应使用对抗学习的方式,设置一个对抗领域自适应网络和一个特征提取网络,对抗领域自适应网络分辨样本的输入是否来自源域,而特征提取网络去欺骗对抗领域自适应网络,通过两者的博弈来增强特征提取网络抽取域不变特征的能力,这样的对抗方式已被证明为最小化源域和目标域特征之间的相对熵距离,基于此,定义对抗领域自适应损失函数为:
式中,ns和nt分别表示源域和目标域样本数,Ds和Dt分别表示源域数据集和目标域数据集,xi表示输入的来自源域或目标域数据集的图片数据,pd(xi)表示对抗领域自适应网络的输出向量;
4.4)定义通用分类网络的损失函数
通用分类网络将源域数据经过特征提取网络提取到特征作为输入,输出类别数量的一维向量,该向量用于与该输入对应的One-Hot标注作交叉熵,其分类任务损失函数定义为交叉熵损失,公式如下:
式中,ns表示源域样本数,Ds表示源域数据集,xi表示输入的来自源域的图片数据,pg(xi)表示通用分类网络的输出向量;yi表示标注的One-Hot向量;
4.5)定义总损失函数
步骤4.1)和步骤4.2)中的两个样本筛选调控损失函数搭配对抗领域自适应损失函数,能够实现源域和目标域真实分布之间的拉近对齐,之后搭配上交叉熵分类损失函数使得网络具有类别鉴别能力,总损失函数定义为:
式中,w1和w2分别为用来权衡特征级调控损失和标注级调控损失的参数;
5)模型训练
初始化模型各网络层的参数,不断迭代输入成对的源域和目标域训练样本,根据损失函数计算得到模型各网络层的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各网络层的参数进行更新;
6)模型验证
使用目标域数据集中的验证数据集对训练得到的模型进行验证,测试模型的泛化性能,调整超参数;
7)模型应用
使用目标域数据集中的测试数据集测试训练得到的模型,并应用到目标域车辆图片的分类任务中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114792.0/1.html,转载请声明来源钻瓜专利网。