[发明专利]大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法在审

专利信息
申请号: 201710673570.0 申请日: 2017-08-09
公开(公告)号: CN107577716A 公开(公告)日: 2018-01-12
发明(设计)人: 肖亮;王璐雅;汪澍 申请(专利权)人: 浙江工商大学;浙江理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天正专利事务所有限公司33201 代理人: 王兵,黄美娟
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 环境 面向 民生 消费 领域 分布式 维度 异常 检测 方法
【说明书】:

技术领域

发明包括一种大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法,具体涉及离群点检测、分布式计算、数据切分、并行计算资源分配及民生消费等领域的知识。特别适用于分析交易大数据,检测海量消费数据中的异常数据,如对海量民生消费领域的数据进行分析,发现异常交易及价格等问题。

技术背景

在大数据时代,各种行为都会以数据形式留下记录,数据的体量正变得越来越大,与此同时异常数据的数量也不可避免地随着数据体量的增大而增多,异常数据不同于数据集中的常规数据,其特性与常规数据相偏离,常用的数据分析方法在遇到异常数据时会存在较明显的误差。在传统的数据挖掘方法中,数据是经过精心挑选的,完整性和一致性有充分保障。但大数据环境下的海量数据,无法进行人工的挑选,因此异常数据检测就有十分重要的作用。同时,随着大数据分析和数据挖掘技术的不断发展,异常数据,也可以体现其价值,如在灾害预警、金融欺诈、信息安全、故障诊断、图像处理分析等领域都是很有价值的数据依据。

民生消费关乎老百姓的日常生活,因此格外受人们关注,这个领域在大数据时代也经历了巨大的变革,数据的价值在该领域也越来越受到重视。除了传统商超记录的民生消费数据,电子商务行业也积累了大量的民生消费数据。第一条数据都是民生领域的一个行为,我们可以通过异常检测方法,从这些数据中发现异常的行为,比如价格欺诈、如物价的异常波动、如销售异常,可以发现是否有不法商家和消费者在干扰民生消费品的正常流通,从而为政府及监管部门提供决策依据。

现有的异常数据检测技术主要有集中式异常数据点检测和分布式异常数据点检测两种。其中集中式异常数据点检测技术属于传统的数据挖掘领域的技术,这些算法存在可移植性差,对局部数据的异常数据点无能为力,参数设置繁琐,存在人为因素影响较大和无法应用于多维数据集的缺点和问题。而现有的分布式异常数据点检测技术对异构分布式并行计算环境的适配上存在很大程度上的数据切分不合理,数据分配不合理,磁盘I/O和网络I/O较高,开销过大的不足。

发明内容

本发明要克服现有技术的上述缺点,提出大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法。

本发明的大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法,包括以下步骤:

步骤1.数据的Box切分:民生消费领域的数据量大,在采用分布式计算进行处理前,对输入数据集进行切分,形成Count(b)个Box,且Box集合中各个Box内的数据点pdata个数不等,其中为输入数据的集合。则切分算法可以用如下方式描述为:

算法1.SLICE(Box b,DIMENSION l).

1.取←Box b在第维度l上的中值;

2.以对b沿第l维方向切分为bleft和bright两个子Box;

3.IF COUNTpdata(bleft)≥AVGpdata THEN

4.递归←SLICE(bleft,(j+1)modL);

5.ELSE

6.OUTPUT bleft

7.ENDIF

8.IF COUNTpdata(bright)≥AVGpdata THEN

9.递归←SLICE(bright,(j+1)modL);

10.ELSE

11.OUTPUT bright

12.ENDIF

并有:

其中,和分别为Box b在维度l上的上下界,COUNTpdata(bleft), COUNTpdata(bright),和COUNT(Mnode)分别为两个子Box、输入数据集上的数据点数量和分布式计算环境中运算节点的数量,L为维度数量。

步骤2.Box编码树构建:构建非平衡二叉编码树,用以快速定位Box之间的邻接关系。图1为一棵非平衡二叉编码树示意图。其构建步骤为:

1.根结点代表数据集的完整区域,其编码记为Ο;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学;浙江理工大学,未经浙江工商大学;浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710673570.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top