[发明专利]一种基于浮动分类阈值的分类器集成方法有效

申请号：	201110121230.X	申请日：	2011-05-11
公开（公告）号：	CN102163239A	公开（公告）日：	2011-08-24
发明（设计）人：	付忠良;赵向辉;姚宇;张丹普	申请（专利权）人：	中科院成都信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	成都赛恩斯知识产权代理事务所(普通合伙) 51212	代理人：	朱月仙
地址：	610041 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于浮动分类阈值集成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习和模式识别方法，特别是涉及一种基于浮动分类阈值的分类器集成方法来提高分类器的性能。

背景技术

通过多个分类器的组合来提升分类精度一直是集成学习研究的主要内容，弱学习定理有力地支撑了这种研究思路的可行性。其中，基于Boosting思想的AdaBoost(adaptive boosting，自适应增强算法)和连续AdaBoost算法是目前被研究和应用得最多的集成学习算法之一，其良好的性能和使用简单的特性吸引了大量研究者对其进行改进与完善。刘大有等人在专利CN101251851A中提出了基于增量朴素贝叶斯网多分类器集成方法；高常鑫等人在专利CN100587708C中阐述了一种分类器集成方法；Zhu和Fu等人于2009年分别在文章《Multi-class AdaBoost》和《Effictive property and best combination of classifiers linear combination》中考虑了直接用于多分类问题的集成学习方法。在集成学习方法中，特别是连续AdaBoost算法，作为AdaBoost算法的扩展，其可以输出连续的置信度，因而能更好地刻画分类边界并受到了更多的重视。在连续AdaBoost算法中，待分类目标经过各个弱分类器分类后并不输出具体的类别标签，而是输出类别标签的置信度。组合分类器对各标签的置信度进行累加，最后输出累计置信度最大的标签。对待分类目标，弱分类器的输出值完全由该目标在该弱分类器对样本空间的划分的情况决定。如采用二段划分的二分类器，常采用正类样本均值和反类样本均值的平均值作为分段划分阈值，当目标位于正类样本均值所在的划分段内，对AdaBoost算法，弱分类器将输出正类标签，而连续AdaBoost算法，弱分类器将输出两个标签的置信度，并且正类标签的置信度一般大于反类标签的置信度。当目标位于反类样本均值所在的划分段内，对AdaBoost算法，弱分类器将输出反类标签，而连续AdaBoost算法，弱分类器将输出两个标签的置信度，并且正类标签的置信度一般小于反类标签的置信度。

然而，不管是AdaBoost算法还是连续AdaBoost算法，其得到的各个弱分类器的分段阈值都是确定的，待分类目标只能与固定的分段阈值比较。于是，当目标位于分段阈值附近时，目标值较小的变化都会导致输出两个完全不一样的结果，这一现象显然不太合理。换句话说，它们对弱分类器的分段阈值是敏感的，对位于分段阈值附近的目标的分类是不稳定的。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供一种能克服固定分类阈值分类器对分类边界附近点分类不稳定的问题的基于浮动分类阈值的分类器集成方法。

为实现上述目的，当针对二分类问题时，本发明提供一种基于浮动分类阈值的分类器集成方法的实施例，该方法包括如下步骤：

(1)获取训练样本集S；

(2)初始化样本权值并赋初值，

(3)迭代T次，训练得到T个最佳弱分类器；

(4)组合T个最佳弱分类器得到最佳组合分类器，

该步骤(3)包括如下步骤：

(3.1)基于有权值的训练样本集S训练弱分类器，t＝1，...，T，通过如下步骤实现：①对应训练样本集S的划分，定义一个区间i＝1，...，m；②定义弱分类器h_t(x)，令l＝1，-1，其中x_i代表第i个样本的具体值，y_i代表第i个样本的类别，代表中l类样本权值之和，l代表二分类问题中类别为1和-1的类；③选取弱分类器h_t(x)，使最小，其中Z_t代表样本权值调整后的归一化因子；

(3.2)根据步骤(3.1)的结果调整样本权值

(3.3)判断t是否小于T，若是，则令t＝t+1，并返回步骤(3.1)，若否，则进入步骤(4)。

更进一步地，组合T个最佳弱分类器得到最佳组合分类器的方法为：H(x)＝sgn(f(x))，其中

当针对多分类问题时，本发明提供一种基于浮动分类阈值的分类器集成方法的实施例，该方法包括如下步骤：

(1)获取训练样本集S；

(2)初始化样本权值并赋初值，i＝1，...，m；

(3)迭代T次，训练得到T个最佳弱分类器；

(4)组合T个最佳弱分类器得到最佳组合分类器，

该步骤(3)包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科院成都信息技术有限公司，未经中科院成都信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】