[发明专利]一种基于散度和EWMA的概念漂移检测方法在审
| 申请号: | 202210516467.6 | 申请日: | 2022-05-12 |
| 公开(公告)号: | CN114817332A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 赵蕴龙;范其林 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06K9/62;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211106 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ewma 概念 漂移 检测 方法 | ||
本发明公开了一种基于散度和EWMA的概念漂移检测方法,目的是通过衡量划分的滑动窗口之间的数据分布差异来检测数据流是否产生概念漂移,其步骤为:1、从数据流中划分滑动窗口,并基于窗口数据来构建该窗口的数据分布函数。2、用Jensen‑Shannon散度来衡量滑动窗口之间数据分布的差异。3、通过EWMA(指数加权移动平均)的假设检验方式来判断是否产生概念漂移,并在检测到概念漂移后重新训练新的分类器来适应后续的数据。
技术领域
本发明属于数据流处理领域,具体来说是一种无监督在线的基于散度和EWMA(指数加权移动平均)的概念漂移检测方法。
背景技术
过去处理的数据往往是静态数据,可以存储在内存中并对整个数据集进行处理。但是随着信息技术高速发展,数据出现了以流的形式源源不断到达。数据流与传统的数据相比,其数据量大,实时到达,而且数据一旦处理完毕,就不能再拿出来处理,除非刻意将数据保存下来。现实环境中的数据可能具有动态行为,概念会发生变化,这就是所谓的概念漂移问题。
概念漂移的定义是指在给定时间段[0,t],该时间段内的数据流表示为S0,t={d0,…,dt},其中di=(Xi,yi)表示数据流中的一个数据实例,Xi为特征向量,yi为标签,并且数据流S0,t遵循某个分布F0,t(X,y)。如果出现F0,t(X,y)≠Ft+1,。。(X,y),则表示在时刻t+1发生概念漂移,表示为Pt(X,y)≠Pt+1(X,y)。也就是说在时刻t前后同样的特征向量分类结果的概率发生变化。
当被收集的数据的概念在一个最小的稳定期后发生变化时,就会发生概念漂移。这种变化反映在传入的实例中,并降低了从过去的训练实例中学习的分类器的准确性。现实生活中概念漂移的例子包括监控系统、金融欺诈检测、垃圾邮件分类、天气预测和客户偏好等。
因此本文利用信息论相关知识,提出了一种基于Jensen-Shannon散度和EWMA的无监督在线概念漂移检测方法。该方法可以在没有真实标签的情况下检测到概念漂移,并且能够有效地检测出概念漂移,而且重新训练的分类器能够有效地提高后续数据的分类精度。
发明内容
本发明的目的在于解决生产生活中可能存在的概念漂移问题,主要内容为提供一种无监督环境下的基于Jensen-Shannon散度和EWMA的概念漂移检测方法,该方法通过衡量划分的滑动窗口之间的数据分布差异来检测数据流是否产生概念漂移,该方法可以高效、快速、准确的检测概念漂移。
本发明的基于Jensen-Shannon散度和EWMA的无监督在线概念漂移检测方法,包括如下步骤:
步骤一:从数据流中划分滑动窗口,并基于窗口数据来构建该窗口的数据分布函数。
步骤二:用Jensen-Shannon散度来衡量滑动窗口之间数据分布的差异。
步骤三:通过EWMA(指数加权移动平均)的假设检验方式来判断是否产生概念漂移,并在检测到概念漂移后重新训练新的分类器来适应后续的数据。
进一步地,所述步骤一的具体过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210516467.6/2.html,转载请声明来源钻瓜专利网。





