[发明专利]一种基于特征迁移的集成分类方法及系统在审
| 申请号: | 201810731253.4 | 申请日: | 2018-07-05 |
| 公开(公告)号: | CN109145943A | 公开(公告)日: | 2019-01-04 |
| 发明(设计)人: | 杨永全 | 申请(专利权)人: | 四川斐讯信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 成都金德联合知识产权代理事务所(特殊普通合伙) 51271 | 代理人: | 张婵婵;王晓普 |
| 地址: | 610100 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基分类器 迁移 训练模型 集成分类 基础模型 海量数据运算 分类准确率 准确度 空间开销 构建 运算 上层 分类 | ||
本实施例公开了一种基于特征迁移的集成分类方法及系统,用以解决现有集成方法海量数据运算以及准确度不高的问题,其中,该方法包括步骤:选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;对所述多个基分类器进行集成;提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。本发明通过集成少数几个基于特征迁移而训练得到的基分类器,无需进行大量运算,进而在少量的时间与空间开销代价下,达到提高分类准确率的目的。
技术领域
本发明涉及数据分类技术领域,尤其涉及一种基于特征迁移的集成分类方法及系统。
背景技术
集成分类(ensemble classification)方法,是指通过适当的组合多个性能较低的弱分类器,进而构成高性能的强分类器的方法,它的基本思想是:对于一个复杂问题来说,将多个专家的判断进行适当的综合得出的判断,要比其中任何一个专家单独的判断好。正是基于这样一种简单的思想,集成分类方法可获得比单一分类器有显著优越的泛化性能。有关集成分类方法的研究,一直是机器学习领域的热点。
特征迁移是指在一个特定的机器学习任务(如图像分类)中学习到的有关该任务领域的数据的特征表达,可以直接迁移到另一个近似或类似的任务中,且只需要对上层分类器的参数进行调整,就能够获得很好的性能。与特征迁移有联系的另一个术语是“迁移学习,其表达的是一个更广的范畴,迁移学习不仅可以对上层分类器的参数进行调整,还可以对用于表述特征表达的基础模型的若干参数进行调整,而且对于选择那些参数进行调整也有不同的策略。基于这种定义可以了解到,特征迁移其实是迁移学习的一个子集。
目前集成分类方法根据单个分类器的生成方式大致可分为两大类:第一类是基于“Boosting”(提升)的方法,其中的代表是“AdaptBoost”,这类方法中的单个分类器之间存在比较强的依赖关系,需以串行的方式生成各个弱分类器;第二类是基于“Bagging”(重采样)的方法,其中的代表是“RandomForest”,这类方法中的单分类器之间不存在依赖关系,因此可以以并行的方式生成各个分类器。Boosting提升方法通过改变训练样本的权重来改变样本的分布,使得分类器聚集在那些比较难分类的样本上,加强对那些容易错分的样本进行学习。这种加强学习的方式是通过增加错误分类样本的权重来完成的,这样错误分类的样本在下一轮的迭代中就有更大的作用。Bagging重采样方法,通过对原始数据进行有放回的抽样,构建出多个样本数据集,然后用这些新的数据集训练多个分类器。由于是有放回的采样,因此一些样本可能会出现多次,而其它样本则会被忽略。该方法是通过简化基分类器,进而来改善整体模型的泛化能力的。因此,Bagging方法的性能是依赖于基分类器的稳定性的,如果基分类器是不稳定的,Bagging则有助于减低因训练数据的扰动而导致的误差,但是如果基分类器是稳定的,即对数据不敏感,那么Bagging方法对性能就没有提升,甚至可能会降低。
但是,基于Boosting或Bagging的集成方法一般需要集成成千上万个基分类器才能够满足一定的精度,因此在数据特征维度较高的情况下,训练或预测阶段的时间或空间代价会比较大。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种基于特征迁移的集成分类方法及系统,解决现有集成方法海量数据运算以及准确度不高的问题。
为了实现以上目的,本发明采用以下技术方案:
一种基于特征迁移的集成分类方法,包括步骤:
选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;
基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;
对所述多个基分类器进行集成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川斐讯信息技术有限公司,未经四川斐讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810731253.4/2.html,转载请声明来源钻瓜专利网。





