[发明专利]一种不平衡数据的分类方法、装置、终端设备及介质在审

专利信息
申请号: 202310444786.5 申请日: 2023-04-24
公开(公告)号: CN116186611A 公开(公告)日: 2023-05-30
发明(设计)人: 刘利枚;李彪;刘星宝;杨俊丰 申请(专利权)人: 湖南工商大学
主分类号: G06F18/241 分类号: G06F18/241;G06F18/2321;G06F18/214;G06N3/09;G06N3/045;G06N3/096
代理公司: 长沙轩荣专利代理有限公司 43235 代理人: 李崇章
地址: 410205 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 不平衡 数据 分类 方法 装置 终端设备 介质
【权利要求书】:

1.一种不平衡数据的分类方法,其特征在于,包括:

将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;

根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;

根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;

针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;

利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;

根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;

利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。

2.根据权利要求1所述的分类方法,其特征在于,所述根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:

计算所述训练数据样本与所述数据聚类簇中其它训练数据样本之间的欧氏距离,并按照所述欧氏距离由大到小的顺序对所述其它训练数据样本进行排序;

将前个其它训练数据样本作为所述训练数据样本的邻近样本,得到所述训练数据样本的邻近样本集合;

通过计算公式

得到所述判别密度;其中,表示第个训练数据样本的判别密度,表示所述邻近样本集合中的第个其它训练数据样本,。

3.根据权利要求2所述的分类方法,其特征在于,所述根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类,包括:

若所述训练数据样本的判别密度大于等于预先设置的临界密度,则将所述训练数据样本确定为稠密样本;

若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将所述训练数据样本确定为边界样本;

若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中不存在稠密样本,则将所述训练数据样本确定为稀疏陷入样本。

4.根据权利要求3所述的分类方法,其特征在于,对所述数据聚类簇中的训练数据样本进行过采样,包括:

若所述数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;

对所述数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;

利用SMOTE算法对所述数据聚类簇中的边界样本进行插值,得到新的训练数据样本。

5.根据权利要求4所述的分类方法,其特征在于,所述利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签,包括:

通过计算公式

得到所述训练数据样本的分类概率分布;其中,表示第个训练数据样本的分类概率分布,表示所述教师网络最后一层第个输出节点的输出,表示所述教师网络最后一层第个输出节点的输出,表示蒸馏温度;

根据所述概率分布和预先设置的临界概率,得到所述训练数据样本的新标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310444786.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top