[发明专利]一种用于软测量建模的增量学习集成算法无效
申请号: | 201410333912.0 | 申请日: | 2014-07-11 |
公开(公告)号: | CN104102837A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 田慧欣 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300160*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 测量 建模 增量 学习 集成 算法 | ||
技术领域
近年来,人工智能技术得到了飞速的发展,基于人工智能技术的各种软测量方法在工业生产过程中也得到了广泛的应用。然而,在实际应用过程中基于单一智能算法的软测量方法常常存在着泛化能力有限、容易出现过拟合等不足,造成软测量模型的精度难以提高,严重制约了软测量技术在生产过程中的实际运用。集成学习可以将多个子学习机进行融合,进而提高整个学习系统的性能,能够在很大程度上克服上述不足。目前,集成学习已经成为国内外机器学习界的研究热点,但是大多数的研究都是针对分类问题进行的,如研究最为广泛的Bagging和Boosting算法等,对于集成学习在回归问题上的研究则少之又少。此外,在实际生产过程中需要软测量模型能够随着生产的进行不断进行更新,以确保其测量精度,这种在线更新能力的优劣直接决定了软测量技术实际应用的有效性。传统的更新方法常通过不断增加训练数据来对模型进行更新,使得模型的训练时间不断增加,若直接减掉部分数据则造成信息缺失;或者更新方法只适用于某一类模型,不具有应用的广泛性。软测量模型更新已经成为阻碍软测量实际应用的最大绊脚石。因此开发能够使软测量模型具有不断学习新数据的能力,同时能够保存从旧数据中学习到的信息,不会遗忘旧知识,具有在线学习效率高、节省训练时间、所需存储空间小的软测量建模方法,成为保障软测量在实际生产过程中在线应用所迫切需要开发的技术。
背景技术
Boosting是一种典型的基于重抽样技术的集成方法,其核心思想是在训练新的学习机时,更关注那些学习效果较差的训练样本。Freund和Schapire将Schapire提出的自适应Boosting算法(AdaBoost)进行扩展,提出了AdaBoost.M1算法和AdaBoost.M2算法,它们可以有效地解决多分类问题。如何用Boosting集成思想来解决回归问题已经成为各国学者关注的问题,Freund和Schapire将AdaBoost.M2延伸到回归问题中,提出了AdaBoost.R集成算法,该算法的核心是以映射的形式将回归数据转化为分类数据集,进而达到解决回归问题的目的,并通过实验对其进行了验证,然而仍然存在着不足。针对AdaBoost.R集成算法的不足,Drucker对AdaBoost.R进行改进,提出了AdaBoost.R2算法,并通过实验验证了其对于回归问题的适用性。AdaBoost.R2实际上也是AdaBoost.M2在回归问题上的延伸,首先选择一种回归方法作为基本弱学习机,然后根据样本每次训练的误差大小来修改该样本所对应的权重,使用新的权重选择训练样本来训练弱学习机,反复上述过程直到满足终止条件,最后将训练好的弱学习机通过一定模式进行集成,得到最终的集成结果。然而,AdaBoost.R2有着与AdaBoost.M1同样的缺点:当误差率大于0.5时则不能继续对弱学习机进行训练。2001年Polikar和Udpa结合AdaBoost思想提出了一种增量集成学习算法--Learn++算法,用于解决多分类问题。Learn++算法具有增量学习的性能,能够从新数据中学习到新的信息,同时不会遗忘从旧数据中学到的信息。对于已有的类不需要使用原始数据对其训练,并能够通过对新数据的学习增加新的类。Learn++集成算法在分类问题上已有一定应用,但此类增量学习的方法在解决回归问题上的研究仍然处于空白。
发明内容
本发明所要解决的技术问题是,将多个弱回归机进行集成,在保证学习连续性的同时有效提高软测量精度。将增量学习思想引入到集成学习中,通过权重的更新实现软测量模型的增量学习性能。
本发明采用的技术方案是:
在算法中加入误差判定值e0,将误差与误差判定值进行比较,以判定学习机的好坏,对“坏”学习机进行抛弃或重新学习。同时,在集成学习过程中加入增量学习思想,通过权重更新策略的设置,实现对新数据的增量学习。即具有对新数据进行学习的能力,当使用已有弱学习机(映射)学习效果较差时,可以生成新的弱学习机(映射)来记录新数据中的信息。而已有的弱学习机(映射)并不会被舍弃掉,因此原始数据的信息仍然被保留下来。算法通过模型的误差率来计算权重,并集成最终输出。在此过程中误差率的变化给算法增加了增量学习的性能。算法描述如表1所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410333912.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用