[发明专利]一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法在审
| 申请号: | 202010452367.2 | 申请日: | 2020-05-25 |
| 公开(公告)号: | CN111639694A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 赵蕴龙;夏源 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211106 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分类 多样性 mcdiarmid 不等式 概念 漂移 检测 方法 | ||
本发明公开了一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法,目的是通过结合多个分类器的不一致性和Mcdiarmid不等式来检测数据流是否发生概念漂移,其步骤为:1、增量训练两个分歧较大的个体分类器,对于新到来的数据流,监视这对分类器的多样性,计算它们之间预测结果的差异度量。2、设定滑动窗口h的大小为n,若滑动窗口h中内容未满,将最新数据流的差异度量结果自动加入到滑动窗口h中。若滑动窗口h中内容已满,将最初的差异度量结果移出滑动窗口,并将最新的结果加入。3、给定一个置信度,通过置信度和Mcdiarmid不等式理论求得判断漂移的阈值。4、滑动窗口中每个元素都与一个权重相关联,计算当前时刻的滑动窗口加权平均值与目前为止观察到的最大加权平均值的差值,并将差值和之前得到的阈值比较来判断是否发生漂移,由此可以有效的检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力。
技术领域
本发明涉及数据流处理技术领域,具体的说是一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法。
背景技术
随着信息技术的高速发展,网页浏览,网上购物,社交等新业务不断出现,导致数据出现了爆炸式的增长。数据流作为一种新的数据类型,与传统的数据相比具有高维性、高速性、动态性和连续性等特点。这使得传统的分类方法面临严峻的挑战。而且,数据流在瞬息万变的真实环境中会不可避免的导致概念漂移问题的出现。
概念漂移指的是目标概念,也就是目标变量的统计特征随着环境不断变化以一种不可预见的方式产生变化的现象。产生概念漂移之后,之前训练的模型预测精度将降低。因此,继续使用之前的分类器对新样本分类会导致分类模型的识别能力急速下降。
由于不断变化的环境引起的概念漂移问题,使得分类器对新到来的数据流适应能力变得糟糕,难以保持较好且稳定的性能。因此,如果有一种方法能够准确的识别概念漂移,就可以及时的更新分类器,使得分类器能够对当前数据流产生好的分类效果。
基于此,提出了一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法,该方法能够及时,准确的检测出数据流是否发生概念漂移,进而能够及时对分类器进行更新来保证分类器的性能。
发明内容
本发明的目的在于解决在数据流中产生的概念漂移问题,提供一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法,将分类器的多样性度量与 Mcdiarmid不等式结合在一起,并且融合窗口的权重信息,提供了一种高效、准确、全面的概念漂移检测方法。
实现本发明目的的技术方案是:一种基于分类器多样性和Mcdiarmid不等式的概念漂移检测方法,包括如下步骤:
步骤一:增量训练两个分歧较大的个体分类器,并且对于新到来的数据流,监视这对分类器的多样性,计算它们之间预测结果的差异度量。
步骤二:设定滑动窗口h的大小为n,若滑动窗口h中内容未满,将最新数据流的差异度量结果自动加入到滑动窗口h中。若滑动窗口h中内容已满,将最初的差异度量结果移出滑动窗口,并将最新的结果加入滑动窗口。
步骤三:给定一个置信度,通过置信度和Mcdiarmid不等式理论求得判断漂移的阈值。
步骤四:计算当前时刻的滑动窗口加权平均值与目前为止观察到的最大加权平均值的差值,并将差值和之前得到的阈值比较来判断是否发生漂移。
进一步的,所述步骤一的具体过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010452367.2/2.html,转载请声明来源钻瓜专利网。





