[发明专利]大数据环境下的分布式跨维度异常数据检测方法有效

申请号：	201611254170.8	申请日：	2016-12-30
公开（公告）号：	CN106708647B	公开（公告）日：	2019-11-29
发明（设计）人：	刘东升;许翀寰	申请（专利权）人：	浙江工商大学
主分类号：	G06F11/07	分类号：	G06F11/07
代理公司：	33289 杭州裕阳联合专利代理有限公司	代理人：	姚宇吉<国际申请>=<国际公布>=<进入
地址：	310000 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	维度输入数据集运算节点编码树非平衡异常数据检测大数据数据点异常点集合筛选分配
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种大数据环境下的分布式跨维度异常数据检测方法，包括：数据切分，基于输入数据集的维度对输入数据集进行切分，形成多个数据桶；根据每一维度上切分出来的数据桶形成非平衡二叉编码树；基于非平衡二叉编码树将切分出来的多个数据桶分配到各运算节点上；在各个运算节点上计算执行每个数据点的相对离群量；筛选出相对离群量大于或等于设定阈值的数据点，形成异常点集合。

技术领域

本发明涉及大数据处理技术领域，且特别涉及一种大数据环境下的分布式跨维度异常数据检测方法。

背景技术

随着大数据分析和数据挖掘技术的不断发展，数据的体量正变得越来越大，在这大量的数据中，异常数据的数量也随着数据体量的增大而增多，异常数据不同于数据集中的常规数据，其特性偏离常规数据，使得数据分析方法会因为这些数据的存在而使分析结果存在较明显的误差。传统的数据挖掘活动前，数据是经过精心挑选的，保证的数据的完整性和一致性。但大数据环境下的海量数据，无法进行人工的挑选，因此异常数据检测就有十分重要的作用。同时，异常数据，也有其价值，如在信用卡欺骗、网络入侵检测、灾害预警、故障诊断、图像处理分析等领域都是很有价值的数据依据。

现有的异常数据检测技术主要有集中式异常数据点检测和分布式异常数据点检测两种。其中集中式异常数据点检测技术属于传统的数据挖掘领域的技术，主要有基于统计的数据集概率分布或模型来筛出严重偏离分布或模型的数据点的检测算法，基于距离的将无足够多相邻数据点的数据点看作异常数据的异常数据点检测算法，基于一定范围内数据点个数及各数据点间的距离来判断异常数据点的数据密度方法，以及基于序列异常的偏差挖掘算法。但这些算法存在可移植性差，对局部数据的异常数据点无能为力，参数设置繁琐，人为因素影响较大和无法应用于多维数据集的缺点和问题。而现有的分布式异常数据点检测技术对异构分布式并行计算环境的适配均存在一定程度的问题，很大程度上存在数据切分不合理，数据分配不倒塌，磁盘I/O和网络I/O较高，开销过大的不足。

发明内容

本发明为了克服现有技术的不足，提供一种大数据环境下的分布式跨维度异常数据检测方法。

为了实现上述目的，本发明提供一种大数据环境下的分布式跨维度异常数据检测方法，包括：

数据切分，基于输入数据集的维度对输入数据集进行切分，形成多个数据桶；

根据每一维度上切分出来的数据桶形成非平衡二叉编码树；

基于非平衡二叉编码树将切分出来的多个数据桶分配到各运算节点上；

在各个运算节点上计算执行每个数据点的相对离群量；

筛选出相对离群量大于或等于设定阈值的数据点，形成异常点集合。

于本发明一实施例中，数据切分的方法包括：

获取待切分的数据桶或输入数据集在某一维度上的中值；

以该中值对待切分的数据桶或输入数据集沿所述某一维度进行切分，形成两个子数据桶；

当形成的子数据桶中数据点的数量大于或等于平均运算节点数量时，对形成的子数据桶在另一维度上进行再次切分，直到形成的子数据桶中数据点的数量小于平均运算节点数量。