[发明专利]不平衡数据的半监督分类方法无效

专利信息
申请号: 201010530912.1 申请日: 2010-11-04
公开(公告)号: CN101980202A 公开(公告)日: 2011-02-23
发明(设计)人: 王爽;焦李成;冯吭雨;钟桦;侯彪;缑水平;马文萍;张青 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 陕西电子工业专利中心 61205 代理人: 王品华;朱红星
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于模糊聚类和半监督学习的不平衡数据分类方法,主要用于解决现有技术在有标记样本较少且不平衡度较高的数据上,对少数类的分类精度低的问题。其实现步骤为:(1)初始有标记样本集和未标记样本集;(2)初始聚类中心;(3)实施模糊聚类;(4)依据聚类结果更新有标记样本集和未标记样本集;(5)实施基于SVM分类器的自训练;(6)依据自训练结果更新有标记样本集和未标记样本集;(7)实施基于不同惩罚参数的支撑矢量机Biased-SVM的分类;(8)评估分类结果并输出。在有标记样本较少的不平衡数据上,本发明提高了少数类的分类精度,可用于训练样本极少的不平衡数据的分类与识别。
搜索关键词: 不平衡 数据 监督 分类 方法
【主权项】:
1.一种不平衡数据的半监督分类方法,包括如下步骤:(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};(2)对所述不平衡数据集的聚类中心进行初始化:(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m-},其中m+是少数类样本的均值中心,m-是多数类样本的均值中心;(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心其中是少数类样本的初始聚类中心,是多数类样本的初始聚类中心;(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到聚类中心其中是少数类样本的聚类中心,是多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+,-)},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,从而将当前有标记样本集和未标记样本集分别更新为式中N+是当前有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集进行基于SVM分类器的自训练;(6)通过上述自训练步骤,从聚类更新后的未标记样本集中选取判别函数值最大的H*个样本进行标记,即从而将当前有标记样本集和未标记样本集分别再次更新为式中聚类更新后的有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(7)对上述自训练更新后的数据集进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类;(8)对上述基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010530912.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top