[发明专利]大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法在审
申请号: | 201710673570.0 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107577716A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 肖亮;王璐雅;汪澍 | 申请(专利权)人: | 浙江工商大学;浙江理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 环境 面向 民生 消费 领域 分布式 维度 异常 检测 方法 | ||
技术领域
本发明包括一种大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法,具体涉及离群点检测、分布式计算、数据切分、并行计算资源分配及民生消费等领域的知识。特别适用于分析交易大数据,检测海量消费数据中的异常数据,如对海量民生消费领域的数据进行分析,发现异常交易及价格等问题。
技术背景
在大数据时代,各种行为都会以数据形式留下记录,数据的体量正变得越来越大,与此同时异常数据的数量也不可避免地随着数据体量的增大而增多,异常数据不同于数据集中的常规数据,其特性与常规数据相偏离,常用的数据分析方法在遇到异常数据时会存在较明显的误差。在传统的数据挖掘方法中,数据是经过精心挑选的,完整性和一致性有充分保障。但大数据环境下的海量数据,无法进行人工的挑选,因此异常数据检测就有十分重要的作用。同时,随着大数据分析和数据挖掘技术的不断发展,异常数据,也可以体现其价值,如在灾害预警、金融欺诈、信息安全、故障诊断、图像处理分析等领域都是很有价值的数据依据。
民生消费关乎老百姓的日常生活,因此格外受人们关注,这个领域在大数据时代也经历了巨大的变革,数据的价值在该领域也越来越受到重视。除了传统商超记录的民生消费数据,电子商务行业也积累了大量的民生消费数据。第一条数据都是民生领域的一个行为,我们可以通过异常检测方法,从这些数据中发现异常的行为,比如价格欺诈、如物价的异常波动、如销售异常,可以发现是否有不法商家和消费者在干扰民生消费品的正常流通,从而为政府及监管部门提供决策依据。
现有的异常数据检测技术主要有集中式异常数据点检测和分布式异常数据点检测两种。其中集中式异常数据点检测技术属于传统的数据挖掘领域的技术,这些算法存在可移植性差,对局部数据的异常数据点无能为力,参数设置繁琐,存在人为因素影响较大和无法应用于多维数据集的缺点和问题。而现有的分布式异常数据点检测技术对异构分布式并行计算环境的适配上存在很大程度上的数据切分不合理,数据分配不合理,磁盘I/O和网络I/O较高,开销过大的不足。
发明内容
本发明要克服现有技术的上述缺点,提出大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法。
本发明的大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法,包括以下步骤:
步骤1.数据的Box切分:民生消费领域的数据量大,在采用分布式计算进行处理前,对输入数据集进行切分,形成Count(b)个Box,且Box集合中各个Box内的数据点pdata个数不等,其中为输入数据的集合。则切分算法可以用如下方式描述为:
算法1.SLICE(Box b,DIMENSION l).
1.取←Box b在第维度l上的中值;
2.以对b沿第l维方向切分为bleft和bright两个子Box;
3.IF COUNTpdata(bleft)≥AVGpdata THEN
4.递归←SLICE(bleft,(j+1)modL);
5.ELSE
6.OUTPUT bleft
7.ENDIF
8.IF COUNTpdata(bright)≥AVGpdata THEN
9.递归←SLICE(bright,(j+1)modL);
10.ELSE
11.OUTPUT bright
12.ENDIF
并有:
其中,和分别为Box b在维度l上的上下界,COUNTpdata(bleft), COUNTpdata(bright),和COUNT(Mnode)分别为两个子Box、输入数据集上的数据点数量和分布式计算环境中运算节点的数量,L为维度数量。
步骤2.Box编码树构建:构建非平衡二叉编码树,用以快速定位Box之间的邻接关系。图1为一棵非平衡二叉编码树示意图。其构建步骤为:
1.根结点代表数据集的完整区域,其编码记为Ο;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学;浙江理工大学,未经浙江工商大学;浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710673570.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置