[发明专利]类脑分层记忆机制启发的异常数据流在线校准系统有效
| 申请号: | 201910899740.6 | 申请日: | 2019-09-23 |
| 公开(公告)号: | CN110659274B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 郝矿荣;王伟凯;陈磊;唐雪嵩;蔡欣;王彤 | 申请(专利权)人: | 东华大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06F16/2458;G06F16/23;G06F16/22 |
| 代理公司: | 上海统摄知识产权代理事务所(普通合伙) 31303 | 代理人: | 杜亚 |
| 地址: | 201620 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分层 记忆 机制 启发 异常 数据流 在线 校准 系统 | ||
本发明涉及一种类脑分层记忆机制启发的异常数据流在线校准系统,包括缺失数据填补模块(Ⅰ)、维度约简模块(Ⅱ)、多维计数布隆过滤器模块(Ⅲ)、分层记忆库模块(Ⅳ)、经验知识库模块(Ⅴ)和校准后的数据块模块(Ⅵ);Ⅰ用于填补数据流批处理环节数据块中缺失的数据;Ⅱ用于将数据块中的高维数据进行低维表示;Ⅲ用于判断新数据样本是否异常;Ⅳ用于存储Ⅱ处理后的历史数据样本;Ⅴ用于存储经Ⅰ处理但未经Ⅱ处理的历史数据样本;Ⅲ和Ⅳ相互配合可进行替换,Ⅳ和Ⅴ相互配合可进行更新;Ⅵ用于存储替换和更新后的新数据样本。本发明的在线校准系统,在不改变数据原始分布的情况下,实时修正离群点、噪声、缺失值以及自适应概念漂移现象。
技术领域
本发明属于大数据技术领域,涉及一种类脑分层记忆机制启发的异常数据流在线校准系统。
背景技术
由于外部环境干扰、物理设施老化、网络传输丢包等因素的存在,实时采集的数据或多或少存在着异常值,如噪声、离群点、缺失等。数据校准是数据挖掘和知识发现过程中的首要环节,也是保证有价值信息得以获取的关键。有报告指出一个项目用在数据校准上的时间往往占据总体项目时间的50%以上,传统意义上的数据清洗方法主要是针对于静态的、离线的、非数据流下的数据样本集进行,如:
(1)噪声平滑:主要有基于模型的方法和基于数据驱动的方法。基于模型的方法一般应用于具有先验知识的场景,如针对线性动态系统的卡尔曼滤波(Kalman Filter)、针对非线性系统的扩展卡尔曼滤波、粒子滤波等;而在缺乏先验知识的情况下,基于数据驱动的自适应滤波方法更为适用,如最小均方滤波、Wiener滤波、有限脉冲反应滤波和无限脉冲反应滤波等;
(2)离群点处理问题:广泛采用机器学习方法处理离群点,如K-means聚类、分层聚类分析等无监督学习的方法;而在有监督学习方面,基于密度的分类方法、支持向量机、PCA维度约简、神经网络是当前广泛采用的方法;
(3)数值缺失问题:主要有删除、替换和填补等处理方法,替换主要包含均值替换、Hot-deck替换、回归替换以及插值替换等,填补主要有最大似然估计、期望最大化等方法。
上述方法主要针对单个异常问题进行离线处理,无法直接应用到实时数据流环境下,主要是因为数据流具有一些独有的特性,如:预测必须在线完成、在不存储数据的情况下持续学习、以无监督方式运行以及自适应概念漂移等。
数据校准是数据挖掘的上游处理过程,当前针对实时数据流的研究主要聚焦在知识发现、模式学习等领域,而缺少对数据流实时校准的研究。
因此,研究一种对异常数据流进行实时校准的方法具有十分重要的意义。
发明内容
本发明的目的是解决现有技术中不存在数据流在线校准系统的问题,提供一种类脑分层记忆机制启发的异常数据流在线校准系统。
为达到上述目的,本发明采用的方案如下:
类脑分层记忆机制启发的异常数据流在线校准系统,其特征是:包括顺序相连的缺失数据填补模块、维度约简模块、多维计数布隆过滤器模块、分层记忆库模块、经验知识库模块和校准后的数据块模块;
缺失数据填补模块用于填补数据流批处理环节数据块中缺失的数据,缺失数据填补是数据校准过程的初始环节,是保证算法持续运行的关键;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910899740.6/2.html,转载请声明来源钻瓜专利网。





