[发明专利]一种基于支持向量机的主动学习方法无效
申请号: | 201310122244.2 | 申请日: | 2013-04-09 |
公开(公告)号: | CN103198052A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 冷严;徐新艳 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 郑华清 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 支持 向量 主动 学习方法 | ||
技术领域
本发明涉及机器学习领域,特别是一种基于支持向量机的主动学习方法。
背景技术
在机器学习领域,训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好,过多的标注样本可能会产生冗余,增加计算的工作量;而且,大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本,由于其对提高分类器性能的贡献大,因而是有用的样本,是值得我们标注的样本。因此,在进行样本标注时,除了要保证一定的数量以外,还应该保证标注样本的质量,这样不但能提高分类器的分类性能,而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注,这正是主动学习技术的核心所在。
主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价,以挑选信息量大的样本交由专家标注。根据评价策略的不同,主动学习方法主要分为以下几类:
(1)基于不确定性采样的主动学习;
(2)基于委员会的主动学习;
(3)基于预期误差缩减的主动学习;
本发明是基于支持向量机的主动学习方法,属于基于不确定性采样的主动学习范畴。
支持向量机(support vector machines,SVM)是一个二值分类器。Tong&Koller在对称版本空间的假设下证明了距离SVM的分类面最近的样本其信息含量最大,因为此样本能迅速缩减版本空间。但是herbrich指出,现实中许多情况都难以很好地满足对称版本空间这一假设,因此距离分类面最近的样本的信息含量并没有我们预期的那么大。有鉴于此,本发明在样本与分类面距离的基础上进一步挖掘样本的信息量,以找到信息量更大的样本交由专家标注。
发明内容
为了在样本与分类面距离的基础上进一步挖掘样本的信息量,以采样信息量更大的样本,本发明具体公开了一种基于支持向量机的主动学习方法。
本发明采用的技术方案如下:
一种基于支持向量机的主动学习方法,包括以下步骤:
步骤1用初始已标注样本集L训练初始SVM分类器;
步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S;
步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;
步骤4将专家标注后的样本放入已标注样本集L中;
步骤5用更新的已标注样本集L重新训练SVM分类器;
步骤6根据停止准则判断是退出循环还是继续迭代。
所述的步骤2中,用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S的方法如下:以SVM分类器边界(margin)内的样本作为候选样本,组成候选样本集S,即:
S={xi|xi∈U,且|f(xi)|<1}
放入候选样本集S中的样本应同时从未标注样本集U中移除。
所述步骤3中,从候选样本集S中挑选信息含量最大的样本的方法如下:首先对候选样本集S中的每个样本xi,从已标注样本集L中寻找其K个最近邻样本,记作假设这K个最近邻样本中,正类样本的数目为ki+,负类样本的数目为ki-,求两者中的最小值,即:
最后,从候选样本集S中寻找ki值最大的那个未标注样本作为信息含量最大的样本,并将其交由专家进行人工标注,而对于候选样本集S中其余的样本,应当将其从候选样本集S中移除,并重新放回未标注样本集U中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310122244.2/2.html,转载请声明来源钻瓜专利网。