[发明专利]一种利用分布策略提升少样本分类准确性的方法在审
申请号: | 202110412397.5 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113033698A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 杨航;杨淑爱;黄坤山 | 申请(专利权)人: | 佛山市南海区广工大数控装备协同创新研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州科沃园专利代理有限公司 44416 | 代理人: | 马盼 |
地址: | 528200 广东省佛山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 分布 策略 提升 样本 分类 准确性 方法 | ||
一种利用分布策略提升少样本分类准确性的方法,包括以下步骤:获取与少样本数据外形特征向量相似度最高的多组不同类别的样本数据集训练特征提取器,利用特征提取器获取每张照片的特征向量xj;利用特征向量xj对每组不同类别的样本数据集全部进行均值和方差的求取;再次利用特征向量xj计算少样本数据的均值和方差;根据每组不同类别的样本数据集的均值和方差校准少样本数据的均值和方差;利用校准后的均值和方差随机抽样生成新特征数据去训练线性分类器,通过训练得到分类器模型;本发明通过对数据集中少样本的分布进行校准,同时无需添加其他参数和模块,便能够提高分类器对少样本类别识别的准确性。
技术领域
本发明涉及图像分类技术领域,特别是涉及一种利用分布策略提升少样本分类准确性的方法。
背景技术
深度学习已被广泛应用于各个领域中,主要用于解决图像分类问题,然而深度学习是一种严重依赖数据的技术,需要大量标注样本才能发挥核心作用,可往往在现实生活中,很多场景应用中不具备过多标注的样本数据,例如在医疗领域,安全领域等,而重新获取标注数据的成本也非常大,因此,在面临小样本问题时,深度学习技术面临的主要问题包括以下,极少的样本形成的数据分布往往与真实数据分布相差较大,在偏斜的数据分布上训练模型会导致严重的过拟合现象并严重破坏模型的泛化能力,故而从极少量的样本中学习到泛化性能良好的模型是极其困难的,所以从有限数量的样本中学习是一个十分具有挑战性的问题。
发明内容
本发明目的就是针对现有技术中的不足,提供一种利用分布策略提升少样本分类准确性的方法,解决现有技术中针对少样本数据图像分类问题因样本数据较少导致无法获得泛化性能良好模型的问题,为实现以上目的,本发明通过以下技术方案予以实现:
一种利用分布策略提升少样本分类准确性的方法,其特征在于,包括以下步骤:
S1、获取与少样本数据外形特征向量相似度最高的多组不同类别的样本数据集,训练特征提取器,并利用特征提取器获取每张照片的特征向量xj;
S2、利用步骤S1获取的特征向量xj,对每组不同类别的样本数据集全部进行均值和方差的求取;
S3、再次利用特征向量xj计算少样本数据的均值和方差;
S4、根据步骤S2中每组不同类别的样本数据集的均值和方差校准步骤S3中少样本数据的均值和方差;
S5、利用步骤S4中校准后的均值和方差随机抽样生成新特征数据去训练一个线性分类器,通过交叉熵损失来训练分类器,得到分类器模型。
优选的,所述步骤S1的具体实施方式为:获取与少样本数据外形特征向量相似度最高的多组不同类别的样本数据集,将多组不同类别的样本数据集统称为基类数据,在基类数据上任意训练一个与Resnet具备相同高性能的特征提取器,利用特征提取器统计基类数据中各组不同类别的样本数据集内每张照片的特征向量xj。
优选的,所述步骤S2中每组不同类别的样本数据集的均值和方差求取的具体实施方式为:利用步骤S1中获取的特征向量xj,代入公式1和公式2分别对各组不同类别的样本数据集的均值和方差进行求取;
其中,i表示组数,ni表示第i组的样本数量,μi1表示每组不同类别的样本数据集的均值,∑i1表示每组不同类别的样本数据集的方差,xj为各组不同类别的样本数据集内每张照片的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院,未经佛山市南海区广工大数控装备协同创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412397.5/2.html,转载请声明来源钻瓜专利网。