[发明专利]不平衡数据的半监督分类方法无效
| 申请号: | 201010530912.1 | 申请日: | 2010-11-04 |
| 公开(公告)号: | CN101980202A | 公开(公告)日: | 2011-02-23 |
| 发明(设计)人: | 王爽;焦李成;冯吭雨;钟桦;侯彪;缑水平;马文萍;张青 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于模糊聚类和半监督学习的不平衡数据分类方法,主要用于解决现有技术在有标记样本较少且不平衡度较高的数据上,对少数类的分类精度低的问题。其实现步骤为:(1)初始有标记样本集和未标记样本集;(2)初始聚类中心;(3)实施模糊聚类;(4)依据聚类结果更新有标记样本集和未标记样本集;(5)实施基于SVM分类器的自训练;(6)依据自训练结果更新有标记样本集和未标记样本集;(7)实施基于不同惩罚参数的支撑矢量机Biased-SVM的分类;(8)评估分类结果并输出。在有标记样本较少的不平衡数据上,本发明提高了少数类的分类精度,可用于训练样本极少的不平衡数据的分类与识别。 | ||
| 搜索关键词: | 不平衡 数据 监督 分类 方法 | ||
【主权项】:
1.一种不平衡数据的半监督分类方法,包括如下步骤:(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};(2)对所述不平衡数据集的聚类中心进行初始化:(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m-},其中m+是少数类样本的均值中心,m-是多数类样本的均值中心;(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心
其中
是少数类样本的初始聚类中心,
是多数类样本的初始聚类中心;(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到聚类中心
其中
是少数类样本的聚类中心,
是多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+,-)},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,从而将当前有标记样本集和未标记样本集分别更新为
和
式中N+是当前有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集
和
进行基于SVM分类器的自训练;(6)通过上述自训练步骤,从聚类更新后的未标记样本集
中选取判别函数值最大的H*个样本进行标记,即
从而将当前有标记样本集和未标记样本集分别再次更新为
和
式中
聚类更新后的有标记样本集
中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(7)对上述自训练更新后的数据集
和
进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类;(8)对上述基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010530912.1/,转载请声明来源钻瓜专利网。
- 上一篇:锅膛组合排气装置及节能炉灶
- 下一篇:电热水壶
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





