[发明专利]一种特征提取和分类任务分离的数据不均衡处理方法有效
申请号: | 202110293696.1 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112966767B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 吴志强;吕晨 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 提取 分类 任务 分离 数据 均衡 处理 方法 | ||
1.一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括如下步骤:
步骤一:准备用于模型训练的分类数据集,对分类数据集统计分析,可视化数据的分布,判定数据是否存在长尾分布;
步骤二:利用深度神经网络训练一个包含两个分支网络的模型,其中,分支网络一用于学习图片的表征特征,分支网络二用于学习图片的分类特征,模型将表征特征与分类特征动态融合,并进行分类;在两个分支网络的训练过程中,分支网络一接受原始采样分布的数据作为输入,分支网络二接受原始数据反比的采样分布作为输入;
所述步骤二中,利用深度神经网络训练一个包含两个分支网络的模型具体包括:
步骤2-1:根据实际的样本数据选择预训练模型作为backbone,为模型的特征提取模块设定卷积层数,模型对特征的融合按循环的迭代次数选择不同的权重来进行叠加;
步骤2-2:表征特征的提取,分支网络一采样正常分布的数据,提取表征特征使得其中F1是表征特征的分支,为提取的图片k的表征特征,其中k=1,2,3…,n;
步骤2-3:分类特征的提取,分支网络二按照样本个数的反比例对图片进行采样学习,用来训练分类特征,其中F2是分类特征的分支,为图片k的分类特征,其中k=1,2,3…,n;
步骤2-4,将提取的表征特征与分类特征进行融合,所述融合按比例系数α来进行,得到组后的模型分类的特征其中,featurek是模型最后进行分类的特征,α为特征融合时提取的系数,所述α的数学表达式为:
其中,T为模型当前训练的轮数,Tmax为模型训练的总的轮数;
步骤2-5:模型的预测,根据步骤2-4得到的融合的特征进行模型的预测,
模型的预测阶段用上述两部分融合的特征来进行分类预测;
步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;
步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。
2.如权利要求1所述的一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于:所述步骤一中包括,对分类数据集进行采集、标注和统计,所述采集指针对特定分类数据集的采集,每个类别的数据集中的图片数量在5张以上,为图片进行标注,所述标注是按照类别目录对图片进行归类,使相同类别的图片在同一个文件夹下,得到的标注信息为其中,k表示为图片的编号,c表示为图片的类别,所述统计是指分析数据样本是否存在长尾分布,所述长尾分布的概率密度函数为y=cx-r,其中所述x指稀有度,y指样本的数量,x,y是正的随机变量,c,r均为大于零的常数。
3.如权利要求2所述的一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于:所述步骤2-1中,用VGG作为网络模型的backbone,模型的特征提取模块的卷积层数设定为5,获取第5个卷积层后的特征。
4.如权利要求3所述的一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于:所述步骤三中,准确率P的公式为召回率R的公式为其中TP为将正类预测为正类,FP为将负类预测为正类,FN为将正类预测为负类,在模型评估过程中,当准确率和召回率达到0.9时,判定模型的性能满足应用需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110293696.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一体化污水处理动态调控系统
- 下一篇:一种智能限量涂油机构