[发明专利]一种不平衡数据的分类方法、装置、终端设备及介质在审
| 申请号: | 202310444786.5 | 申请日: | 2023-04-24 |
| 公开(公告)号: | CN116186611A | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 刘利枚;李彪;刘星宝;杨俊丰 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/2321;G06F18/214;G06N3/09;G06N3/045;G06N3/096 |
| 代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 李崇章 |
| 地址: | 410205 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 不平衡 数据 分类 方法 装置 终端设备 介质 | ||
本申请适用于数据处理技术领域,提供了一种不平衡数据的分类方法、装置、终端设备及介质,通过对训练数据样本进行聚类,得到数据聚类簇;根据每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据判别密度和预先设置的临界密度,确定训练数据样本的样本种类;通过过采样和欠采样平衡每个数据聚类簇中训练数据样本的数量;利用知识蒸馏网络的教师网络,生成每个训练数据样本的新标签;根据新标签,构建学生网络损失函数,并利用其对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。本申请能提高不平衡数据分类的准确性。
技术领域
本申请属于数据处理技术领域,尤其涉及一种不平衡数据的分类方法、装置、终端设备及介质。
背景技术
欺诈行为是一种违法行为,会给受欺诈的人们造成严重的经济损失,对欺诈行为数据进行分类识别,是预防欺诈行为发生的有效办法。
数据分类是一种广为应用的数据分析形式,作为监督学习的代表,被广泛运用于各个领域,它以发现隐藏在数据和类别背后的关联性规则为目标,根据实例在特征空间上的分布对其进行所属类别的划分。随着科学和信息技术的进步,极大推动了社会发展。数据分类方法已经渗透到生产生活各个领域之中,其规模也在不断的增长。分类分析的主要应用方向是训练带有标签的数据集生成分类器,再用分类器去预测未带标签的同类数据的标签,希望能够给它们戴上正确的标签。
现存的常见分类算法有决策树分类算法、神经网络分类算法、邻近算法(KNN,K-NearestNeighbor)、支持向量机分类算法等算法。此类算法没有将数据分布均衡问题纳入考虑范围内,即使分类器对于整体样本的分类准确率很高,其中的不平衡数据中的少数欺诈行为数据的识别率还是比较低的。但是实际数据集中一些类别的欺诈行为样本数量可能比其他类别想象的少很多,甚至不在同一数据量级,因此,之前的方法对实际遇到的问题就无法适用。
发明内容
本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,可以解决现有技术对不平衡数据分类不准确的问题。
第一方面,本申请提供了一种不平衡数据的分类方法,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;
根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用分类预测模型对待分类数据进行分类,识别欺诈行为。
可选的,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:
计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310444786.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种骨棒肉片生产用压制设备
- 下一篇:一种串联电池组的微小短路故障检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





