[发明专利]一种基于支持向量机的主动学习方法无效

申请号：	201310122244.2	申请日：	2013-04-09
公开（公告）号：	CN103198052A	公开（公告）日：	2013-07-10
发明（设计）人：	冷严;徐新艳	申请（专利权）人：	山东师范大学
主分类号：	G06F15/18	分类号：	G06F15/18
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	郑华清
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于支持向量主动学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及机器学习领域，特别是一种基于支持向量机的主动学习方法。

背景技术

在机器学习领域，训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好，过多的标注样本可能会产生冗余，增加计算的工作量；而且，大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本，由于其对提高分类器性能的贡献大，因而是有用的样本，是值得我们标注的样本。因此，在进行样本标注时，除了要保证一定的数量以外，还应该保证标注样本的质量，这样不但能提高分类器的分类性能，而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注，这正是主动学习技术的核心所在。

主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价，以挑选信息量大的样本交由专家标注。根据评价策略的不同，主动学习方法主要分为以下几类：

（1）基于不确定性采样的主动学习；

（2）基于委员会的主动学习；

（3）基于预期误差缩减的主动学习；

本发明是基于支持向量机的主动学习方法，属于基于不确定性采样的主动学习范畴。

支持向量机(support vector machines,SVM)是一个二值分类器。Tong&Koller在对称版本空间的假设下证明了距离SVM的分类面最近的样本其信息含量最大，因为此样本能迅速缩减版本空间。但是herbrich指出，现实中许多情况都难以很好地满足对称版本空间这一假设，因此距离分类面最近的样本的信息含量并没有我们预期的那么大。有鉴于此，本发明在样本与分类面距离的基础上进一步挖掘样本的信息量，以找到信息量更大的样本交由专家标注。

发明内容

为了在样本与分类面距离的基础上进一步挖掘样本的信息量，以采样信息量更大的样本，本发明具体公开了一种基于支持向量机的主动学习方法。

本发明采用的技术方案如下：

一种基于支持向量机的主动学习方法，包括以下步骤：

步骤1用初始已标注样本集L训练初始SVM分类器；

步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S；

步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注；

步骤4将专家标注后的样本放入已标注样本集L中；

步骤5用更新的已标注样本集L重新训练SVM分类器；

步骤6根据停止准则判断是退出循环还是继续迭代。

所述的步骤2中，用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S的方法如下：以SVM分类器边界（margin）内的样本作为候选样本，组成候选样本集S，即：

S＝{x_i|x_i∈U,且|f(x_i)|＜1}