[发明专利]不平衡数据的半监督分类方法无效
| 申请号: | 201010530912.1 | 申请日: | 2010-11-04 |
| 公开(公告)号: | CN101980202A | 公开(公告)日: | 2011-02-23 |
| 发明(设计)人: | 王爽;焦李成;冯吭雨;钟桦;侯彪;缑水平;马文萍;张青 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 不平衡 数据 监督 分类 方法 | ||
技术领域
本发明属于数据处理领域,涉及不平衡数据分类,是模式识别和机器学习在数据挖掘领域的应用,具体的说是一种基于模糊聚类和半监督学习的不平衡数据分类方法,可用于训练样本极少的不平衡数据的分类与识别。
背景技术
伴随着全球信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量非常大,但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数量明显少于其它类样本的数据集被称作不平衡数据集,不平衡数据集的分类问题大量存在于现实生活之中,例如,检测公民的信用申请是否存在欺诈,一般情况下欺诈申请要远少于合法申请;利用诊疗数据诊断病人的疾病,如心脏病患者要远少于健康的人。在这些实际应用中,人们更关心的是数据集中的少数类,即样本数目远少于其它类样本的一类样本,而且这些少数类的错分代价往往非常大,因此需要有效提高少数类的分类精度。
同时随着数据采集技术的发展,获取大量未标记样本变得非常容易,而有标记样本的获取因需要大量的人力物力仍相对困难,从而需要研究如何有效的利用大量存在的未标记样本协助少量有标记样本提高分类器的学习性能。引入半监督学习的思想可同时利用有标记样本和未标记样本对数据集进行训练和预测,其中基于SVM分类器的直推式支持向量机TSVM方法就是一种具有代表性的半监督分类方法,该方法需要预先设定未标记样本中各类样本数目比例,这通常要依据有标记样本集的数据分布对其进行估计,在实际应用中,如果未标记样本与有标记样本的数据分布偏差较大,将严重影响TSVM分类方法对数据集的分类和预测结果。
近几年来,不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注,国内外学者对不平衡数据的研究主要有两个方面:一是基于数据采样的方法,其主要目的是通过对数据进行预处理降低数据的不平衡度,如模拟增加少数类样本的少数类样本合成过采样技术SMOTE;二是基于分类算法的方法,Veropoulos等人提出的不同惩罚参数的支持向量机Biased-SVM,为各类样本指派不同的惩罚参数,从一定程度上抵消了数据不平衡度对分类器SVM的影响。
面对不平衡数据集的学习问题,研究的困难主要来自于不平衡数据集本身的特点:不平衡数据集中的少数类样本不足,样本的分布并不能很好的反映整个类的实际分布;多数类通常会夹杂噪声数据,使得两类样本往往会出现不同程度的重叠。此外,传统的机器学习领域的分类方法,在直接应用于不平衡数据集时,如果没有考虑数据的不平衡性,容易将少数类样本错分为多数类,尽管整体的分类精度比较高,但对少数类的分类精度非常低;相反的,如果过分考虑不平衡性对分类方法的影响,又容易出现过学习现象,虽然对训练集可以达到很高的分类精度,但面对数据集的更新和变化时,分类效果又不够理想了。
发明内容
本发明的目的在于克服上述已有技术的不足,针对有标记样本较少的不平衡数据,提出一种基于模糊聚类和半监督学习的不平衡数据分类方法,以在考虑到数据不平衡性的同时,引入半监督学习的思想,避免过学习现象的出现,提高分类器对数据集中少数类的分类精度。
实现本发明目的的技术思路是:通过实施模糊聚类,并结合基于SVM分类器的自训练学习过程,对未标记样本不断进行标记和利用,扩充有标记样本集中的少数类,在均衡各类样本数目的同时,为分类器提供更多有效的样本分布信息,从而提高分类器对不平衡数据的分类性能。其技术方案包括以下步骤:
(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};
(2)对所述不平衡数据集的聚类中心进行初始化:
(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m-},其中m+是少数类样本的均值中心,m-是多数类样本的均值中心;
(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心其中是少数类样本的初始聚类中心,是多数类样本的初始聚类中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010530912.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:锅膛组合排气装置及节能炉灶
- 下一篇:电热水壶
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





