[发明专利]一种有向链接式分类器构造方法及分类方法在审
申请号: | 201510192537.7 | 申请日: | 2015-04-22 |
公开(公告)号: | CN104820687A | 公开(公告)日: | 2015-08-05 |
发明(设计)人: | 张晓宇;侯子骄;王树鹏 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 链接 分类 构造 方法 | ||
技术领域
本发明涉及一种有向链接式分类器构造方法及分类方法,属于计算机软件技术领域。
背景技术
在信息智能分析领域,许多典型应用本质上都可以归结为分类问题,如恶意代码识别、入侵检测等。传统的分类方法或高度依赖于人工判定,或基于简单直接的经验性规则,分类的效果和效率都亟待提升。在这种情况下,智能化、自动化的分类方法被视为一种有效的解决方案,而分类器的选择是一个至关重要的环节。Boosting算法因其构造简单、提升效果明显等优点,成为一种被广泛应用的方法;其中,AdaBoost(Adaptive Boosting)最具代表性。
从机器学习的角度出发,传统的自动分类方法属于监督学习(supervised learning),这类方法完全基于已标注样本作为训练集构建分类模型。与之相对应的是非监督学习(unsupervised learning),即从未标注样本出发挖掘数据中隐含的结构化信息的过程。监督学习对于已标注样本集的规模依赖较大,已标注样本越多则分类模型越可靠。但是在很多实际分类问题中,由于人力成本、时间代价高昂,往往无法获得模型训练所需的大量而充分的样本类别信息;通常,只能得到一小部分已标注样本,而其余大部分样本都是未标注的。因此,即便是诸如AdaBoost之类的高效分类器,在训练样本极为稀少的情况下,也难以准确刻画与揭示出真实的分类模型。
背景技术的缺陷
在传统AdaBoost分类器构造方法中,各个弱分类器仅仅通过由错误率而获得的训练权重组合构成强分类器,但在弱分类器之间却不存在直接的联系。如果将各个弱分类器看成是图模型中的节点,则在传统AdaBoost分类方法中这些节点之间并不存在相互链接的边,换言之这些节点是相对孤立的。从信息流转角度看,也即不存在弱分类器之间的信息交互,这就导致先前弱分类器中学习获得的知识无法直接为后续弱分类器的构造提供有效指导,从而浪费了有价值信息。
发明内容
本发明的目的在于提供一种有向链接式分类器构造方法及分类方法,通过在弱分类器之间设计有向链接信息通路,实现模型知识的共享传递和协同指导。使用该方法,可以充分利用有限已标注样本以获得更优的分类结果,为“已标注样本获取代价高、数量少而未标注样本数量庞大、普遍存在”的数据分类应用场景提供了一种有效的解决方案。
本发明针对传统AdaBoost框架的局限性,设计了一种弱分类器协同指导结构框架,提出了一种有向链接式AdaBoost分类器构造方法。该方法在弱分类器之间设计有向链接信息通路,通过有价值知识的共享传递与协同指导,充分挖掘与利用已标注和未标注这两种样本,实现了模型信息的有效利用与融合增强。
有向链接式AdaBoost分类器构造方法的核心思想是:利用先前训练出的弱分类器对未标注集进行分类,并将预测置信度最高的若干样本推荐给后续弱分类器,利用这种方式一方面把具有高可靠性的信息传递给后续弱分类器,指导后续弱分类器的构造,另一方面也通过有价值信息的共享有效“扩充”了训练集,从而能够在充分利用有限训练数据的同时提升整体分类性能。具体而言:在有向链接式AdaBoost分类方法的每一轮循环迭代中,训练出的弱分类器Gm(x)除了作用于已标注集以求得融合权重系数之外,还作用于未标注集以选取出其中预测置信度最高的前K个样本,将这些样本连同对应的预测标注构成增量训练集ΔTm并推荐给后续弱分类器,从而在扩展现有训练集的同时有针对性地指导后续弱分类器的构建。有向链接式AdaBoost分类方法流程如图1所示。
根据增量训练集的推荐范围,有向链接式AdaBoost分类方法可以进一步划分为“更新型”和“累积型”两种模式。为表述清楚起见,本发明文档用表示样本输入特征,用yi∈{-1,+1}表示其对应的类别标签;样本集X按照标注与否分为已标注集L和未标注集U,其中已标注集L中的样本连同其对应标签构成模型学习的训练集T。
·更新型:该模式下,当前增量训练集只推荐给下一个弱分类器,因此信息交互只存在于相邻弱分类器之间(如图2所示)。用T(m)表示构建弱分类器Gm(x)所采用的扩展训练集,用ΔTm表示弱分类器Gm(x)所生成的增量训练集,则公式化表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510192537.7/2.html,转载请声明来源钻瓜专利网。