[发明专利]一种基于聚类下采样的不平衡数据分类方法在审

申请号：	201710784810.4	申请日：	2017-09-04
公开（公告）号：	CN107688831A	公开（公告）日：	2018-02-13
发明（设计）人：	曹路	申请（专利权）人：	五邑大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京科亿知识产权代理事务所(普通合伙)11350	代理人：	汤东凤
地址：	529020 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于聚类下采样不平衡数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及模式识别的研究领域，特别涉及一种基于聚类下采样的不平衡数据的分类方法。

背景技术

分类问题是模式识别、机器学习等领域内非常重要的一个研究内容，在现实生活中有非常广泛的应用，如银行系统中的手写数字识别、安保监控系统中的人脸识别和网络安全中的入侵检测等。目前，处理分类问题已经有了一些相对成熟的分类方法，如：决策树、K-近邻、神经网络、支持向量机等方法，其中，支持向量机以其完备的理论阐述和良好的实验结果受到广泛关注。这些传统的分类方法均是基于类分布平衡假设而提出的，其主要目的是提高整体的分类性能，对分布均匀的数据集显示出很好的效果。但是，在现实生活中所获取的数据往往会出现类别间样本数量不平衡和噪声干扰等特点，使传统的分类器无法达到预期效果。

不平衡数据集在现实生活中广泛存在，如生产线上的残次品检测、信用卡欺诈检测和疾病诊断等，在这些数据集中，样本数较多的类别称为多类，样本数较少的类别称为少类，多类的样本数远远大于少类的样本数。在不平衡数据集的分类问题中，少类样本的识别往往是分类的重点，如生产线上的产品，大多数都属于合格产品，仅有一小部分是残次品，如果使用传统的分类方法，残次品的识别率很低，就无法真正实现检测残次品的目的。因此，如何改善分类器在不平衡分类问题上的性能，在不危害多类分类精度的情况下提高少类样本的识别率是亟待解决的问题。

不平衡数据集的分类问题研究可分为两个方面，一个是从算法本身入手，通过改进已有的算法，使分类偏向少类，典型的如代价敏感支持向量机，通过给少类样本较高的权重以提高少类的分类精度。二是在数据层面通过采样技术对不平衡数据集进行预处理，使训练集中少类和多类的样本数基本平衡。

采样技术可分为上采样和下采样两种，上采样技术通过简单复制或采用启发式的方法以增加少类样本的数量，典型的有随机上采样和SMOTE（Synthetic Minority Over-sampling Technique）算法。SMOTE算法通过在给定少类样本点和其K个近邻之间随机插值构造新的样本点，在一定程度上改善不平衡数据分类的性能。但无论是随机上采样还是SMOTE算法，均没有遵循数据本身的分布规律，当生成的样本与原始数据的分布不一致时，将不可避免引入噪声，不仅容易过拟合还增加了算法复杂度，不能适应目前大数据的发展趋势。

下采样通过删除某些多类样本点以减少多类样本的数目，典型的有随机下采样和OSS（One Side Selection）算法。OSS算法将多类样本分为噪声样本，边界样本，冗余样本和安全样本，根据Tomek Links技术去掉噪声点和边界点以减少少类样本数目。因为减少了样本点，下采样技术可以降低算法的复杂度，减少训练时间。但是，下采样技术在将多类样本删除的同时有可能会丢失具有代表性的多类样本信息，而使分类面发生偏移。

发明内容

本发明的主要目的是克服现有技术的缺点与不足，提供一种基于聚类下采样的不平衡数据分类方法，在保证多类分类精度的情况下提高少类样本的识别率，以提高不平衡数据集的分类性能。

本发明的原理是：支持向量机是非常依赖支持向量的分类器，本发明根据支持向量机这一重要特性，提出了一种基于聚类下采样的不平衡数据分类方法。首先通过快速搜索和发现密度峰值聚类算法将多类分成不同的簇；然后将多类的每一簇与少类样本点构建训练集，通过支持向量机训练获得每一簇的支持向量，保留所有簇的所有支持向量，删除非支持向量构建新的多类样本点以获得相对平衡的数据集；最后将获得的新的数据集用支持向量机进行分类。

本发明采用以下技术方案：

一种基于聚类下采样的不平衡数据分类方法，包括下述步骤：

（1）将不平衡数据集分为训练集和交叉验证集两部分；

（2）从训练集中提取出多类样本和少类样本；

（3）对训练集的多类样本利用快速搜索和发现密度峰值聚类算法进行聚类，获得聚类结果，将训练集中的多类样本分为N簇；

（4）将训练集中多类样本的每一簇样本与训练集中的少类样本构成新的样本集，并用支持向量机分类，获得训练集中多类样本的支持向量；

（5）抽取每一簇的支持向量和训练集中的少类样本一起构成新的训练集；

（6）将新的训练集通过支持向量机进行训练，并通过交叉验证集进行性能评估。

进一步地，步骤（1）中，训练集合交叉集的比例可以根据需要进行分配，一般可以取十折交叉验证，即将数据集分成十分，将其中9份作为训练集，1份作为测试集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于五邑大学，未经五邑大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】