[发明专利]不均衡数据集的样本选择方法、装置、设备及存储介质在审
申请号: | 202111607889.6 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114419365A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 邢玲;余晓填;王孝宇 | 申请(专利权)人: | 深圳云天励飞技术股份有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V40/16;G06K9/62 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市龙岗区园山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 均衡 数据 样本 选择 方法 装置 设备 存储 介质 | ||
1.一种不均衡数据集的样本选择方法,其特征在于,方法包括:
获取不均衡数据集中具有人工标注类别的第一样本数据集;
根据所述第一样本数据集进行模型训练,得到第一阶段模型;所述第一阶段模型对所述不均衡数据集中属于小样本类别集的样本数据进行识别的准确率,大于预设准确率;
采用所述第一阶段模型对所述不均衡数据集中未具有人工标注类别的未标注数据集进行识别,得到所述未标注数据集中每个样本数据的预测样本类别;
根据所述预测样本类别,从所述未标注数据集中选择目标数量的样本数据,生成目标训练数据集;所述目标训练数据集中每种所述预测样本类别分别对应的样本数据的数量均衡。
2.根据权利要求1所述的方法,其特征在于,在所述获取不均衡数据集中具有人工标注类别的第一样本数据集之后,还包括:
根据所述第一样本数据集中每个第一样本数据的样本类别,确定每种所述样本类别分别对应的第一样本数据的第一数量;
统计所述第一数量小于预设数量的样本类别,得到所述小样本类别集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本数据集进行模型训练,得到第一阶段模型,包括:
S1、根据所述第一样本数据集进行模型训练,得到初始阶段模型;
S2、从所述未标注数据集中随机选择样本数据,生成第二样本数据集;
S3、采用所述初始阶段模型对所述第二样本数据集进行初步识别,得到预测类别属于所述小样本类别集的第二样本数据;
S4、根据对所述第二样本数据进行人工标注的样本类别,计算所述初始阶段模型对所述第二样本数据的识别准确率;
S5、若所述识别准确率大于所述预设准确率,则将所述初始阶段模型确定为所述第一阶段模型;
S6、若所述识别准确率小于或等于所述预设准确率,则采用所述人工标注后的第二样本数据对所述初始阶段模型进行迭代,得到迭代后的所述初始阶段模型;
S7、对迭代后的所述初始阶段模型重复执行S2-S7步骤,直至得到所述第一阶段模型。
4.根据权利要求3所述的方法,其特征在于,在所述根据对所述第二样本数据进行人工标注的样本类别,计算所述初始阶段模型对所述第二样本数据的识别准确率之前,还包括:
针对任一所述第二样本数据,获取所述初始阶段模型对所述第二样本数据的样本类别进行预测的第一概率值;
对所述第一概率值大于预设概率值的第二样本数据进行人工标注,得到所述第二样本数据对应的样本类别。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述预测样本类别,从所述未标注数据集中选择目标数量的样本数据,生成目标训练数据集,包括:
获取所述未标注数据集中每个未标注样本数据分别属于对应的所述预测样本类别的第二概率值;
针对任一所述未标注样本数据,根据所述第二概率值计算所述未标注样本数据的信息熵;
若所述未标注样本数据的预测样本类别属于所述小样本类别集中的一种,则将所述信息熵与预设系数进行乘积,得到修改后的信息熵;所述预设系数大于1;否则,维持所述未标注样本数据的信息熵不变;
将所述信息熵作为所述未标注样本数据的选中概率;
根据每个所述未标注样本数据分别对应的选中概率,从所述未标注数据集中选择目标数量的样本数据,生成所述目标训练数据集。
6.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述预测样本类别,从所述未标注数据集中选择目标数量的样本数据,生成目标训练数据集,包括:
统计所述预测样本类别的类别数;
计算所述目标数量与所述类别数的比值,得到每种所述预测样本类别待选择的样本数据的样本数量;
根据所述预测样本类别,将所述未标注数据集分别划分为多个所述预测样本类别对应的未标注数据子集;
针对任一所述预测样本类别对应的未标注数据子集,随机从所述未标注数据子集中选择与所述样本数量一致的未标注样本数据,生成所述目标训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳云天励飞技术股份有限公司,未经深圳云天励飞技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111607889.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置