[发明专利]一种不平衡数据的分类方法、装置、终端设备及介质在审
| 申请号: | 202310444786.5 | 申请日: | 2023-04-24 |
| 公开(公告)号: | CN116186611A | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 刘利枚;李彪;刘星宝;杨俊丰 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/2321;G06F18/214;G06N3/09;G06N3/045;G06N3/096 |
| 代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 李崇章 |
| 地址: | 410205 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 不平衡 数据 分类 方法 装置 终端设备 介质 | ||
1.一种不平衡数据的分类方法,其特征在于,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;
根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。
2.根据权利要求1所述的分类方法,其特征在于,所述根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:
计算所述训练数据样本与所述数据聚类簇中其它训练数据样本之间的欧氏距离,并按照所述欧氏距离由大到小的顺序对所述其它训练数据样本进行排序;
将前个其它训练数据样本作为所述训练数据样本的邻近样本,得到所述训练数据样本的邻近样本集合;
通过计算公式
得到所述判别密度;其中,表示第个训练数据样本的判别密度,表示所述邻近样本集合中的第个其它训练数据样本,。
3.根据权利要求2所述的分类方法,其特征在于,所述根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类,包括:
若所述训练数据样本的判别密度大于等于预先设置的临界密度,则将所述训练数据样本确定为稠密样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将所述训练数据样本确定为边界样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中不存在稠密样本,则将所述训练数据样本确定为稀疏陷入样本。
4.根据权利要求3所述的分类方法,其特征在于,对所述数据聚类簇中的训练数据样本进行过采样,包括:
若所述数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;
对所述数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;
利用SMOTE算法对所述数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
5.根据权利要求4所述的分类方法,其特征在于,所述利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签,包括:
通过计算公式
得到所述训练数据样本的分类概率分布;其中,表示第个训练数据样本的分类概率分布,表示所述教师网络最后一层第个输出节点的输出,表示所述教师网络最后一层第个输出节点的输出,表示蒸馏温度;
根据所述概率分布和预先设置的临界概率,得到所述训练数据样本的新标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310444786.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种骨棒肉片生产用压制设备
- 下一篇:一种串联电池组的微小短路故障检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





