[发明专利]不平衡数据的半监督分类方法无效

专利信息
申请号: 201010530912.1 申请日: 2010-11-04
公开(公告)号: CN101980202A 公开(公告)日: 2011-02-23
发明(设计)人: 王爽;焦李成;冯吭雨;钟桦;侯彪;缑水平;马文萍;张青 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 陕西电子工业专利中心 61205 代理人: 王品华;朱红星
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 不平衡 数据 监督 分类 方法
【权利要求书】:

1.一种不平衡数据的半监督分类方法,包括如下步骤:

(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};

(2)对所述不平衡数据集的聚类中心进行初始化:

(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m-},其中m+是少数类样本的均值中心,m-是多数类样本的均值中心;

(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心其中是少数类样本的初始聚类中心,是多数类样本的初始聚类中心;

(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到聚类中心其中是少数类样本的聚类中心,是多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+,-)},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;

(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,从而将当前有标记样本集和未标记样本集分别更新为和式中N+是当前有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;

(5)对上述聚类更新后的数据集和进行基于SVM分类器的自训练;

(6)通过上述自训练步骤,从聚类更新后的未标记样本集中选取判别函数值最大的H*个样本进行标记,即从而将当前有标记样本集和未标记样本集分别再次更新为和式中聚类更新后的有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;

(7)对上述自训练更新后的数据集和进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类;

(8)对上述基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估;

(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。

2.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(5)所述的对聚类更新后的数据集和进行基于SVM分类器的自训练,按如下步骤进行:

(5a)利用聚类更新后的有标记样本集训练SVM分类器;

(5b)利用SVM分类器的判别函数得到聚类更新后的未标记样本集中各样本的测试标记其中w是通过训练SVM分类器得到的最优分类平面的权值向量,b是其偏置向量,sgn()是符号函数,是用于测试的未标记样本。

3.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(7)所述的对自训练更新后的数据集和进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类,按如下步骤进行:

(7a)利用自训练更新后的有标记样本集训练不同惩罚参数的支撑矢量机Biased-SVM;

(7b)利用不同惩罚参数的支撑矢量机Biased-SVM的判别函数f(xj)=w·xj+b,得到初始未标记样本集{xj}中各样本的测试标记label(xj)=sgn(w·xj+b),其中w是训练不同惩罚参数的支撑矢量机Biased-SVM得到的最优分类平面的权值向量,b是其偏置向量,sgn()是符号函数,xj是用于测试的未标记样本。

4.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(8)所述的对基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估,按如下步骤进行:

(8a)分别计算出少数类的分类精度和多数类的分类精度其中,对应于数据的预测结果,TP是预测为少数类且实际为少数类样本数目,FP是预测为少数类但实际为多数类的样本数目,FN是预测为多数类但实际为少数类的样本数目,TN是预测为多数类且实际为多数类的样本数目;

(8b)依据上述计算得到的Se和Sp值,计算几何均值

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010530912.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top