[发明专利]不平衡数据的半监督分类方法无效
| 申请号: | 201010530912.1 | 申请日: | 2010-11-04 |
| 公开(公告)号: | CN101980202A | 公开(公告)日: | 2011-02-23 |
| 发明(设计)人: | 王爽;焦李成;冯吭雨;钟桦;侯彪;缑水平;马文萍;张青 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 不平衡 数据 监督 分类 方法 | ||
1.一种不平衡数据的半监督分类方法,包括如下步骤:
(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};
(2)对所述不平衡数据集的聚类中心进行初始化:
(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m-},其中m+是少数类样本的均值中心,m-是多数类样本的均值中心;
(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心其中是少数类样本的初始聚类中心,是多数类样本的初始聚类中心;
(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到聚类中心其中是少数类样本的聚类中心,是多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+,-)},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;
(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,从而将当前有标记样本集和未标记样本集分别更新为和式中N+是当前有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;
(5)对上述聚类更新后的数据集和进行基于SVM分类器的自训练;
(6)通过上述自训练步骤,从聚类更新后的未标记样本集中选取判别函数值最大的H*个样本进行标记,即从而将当前有标记样本集和未标记样本集分别再次更新为和式中聚类更新后的有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;
(7)对上述自训练更新后的数据集和进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类;
(8)对上述基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估;
(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。
2.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(5)所述的对聚类更新后的数据集和进行基于SVM分类器的自训练,按如下步骤进行:
(5a)利用聚类更新后的有标记样本集训练SVM分类器;
(5b)利用SVM分类器的判别函数得到聚类更新后的未标记样本集中各样本的测试标记其中w是通过训练SVM分类器得到的最优分类平面的权值向量,b是其偏置向量,sgn()是符号函数,是用于测试的未标记样本。
3.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(7)所述的对自训练更新后的数据集和进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类,按如下步骤进行:
(7a)利用自训练更新后的有标记样本集训练不同惩罚参数的支撑矢量机Biased-SVM;
(7b)利用不同惩罚参数的支撑矢量机Biased-SVM的判别函数f(xj)=w·xj+b,得到初始未标记样本集{xj}中各样本的测试标记label(xj)=sgn(w·xj+b),其中w是训练不同惩罚参数的支撑矢量机Biased-SVM得到的最优分类平面的权值向量,b是其偏置向量,sgn()是符号函数,xj是用于测试的未标记样本。
4.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(8)所述的对基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估,按如下步骤进行:
(8a)分别计算出少数类的分类精度和多数类的分类精度其中,对应于数据的预测结果,TP是预测为少数类且实际为少数类样本数目,FP是预测为少数类但实际为多数类的样本数目,FN是预测为多数类但实际为少数类的样本数目,TN是预测为多数类且实际为多数类的样本数目;
(8b)依据上述计算得到的Se和Sp值,计算几何均值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010530912.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:锅膛组合排气装置及节能炉灶
- 下一篇:电热水壶
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





