[发明专利]大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法在审

专利信息
申请号: 201710673570.0 申请日: 2017-08-09
公开(公告)号: CN107577716A 公开(公告)日: 2018-01-12
发明(设计)人: 肖亮;王璐雅;汪澍 申请(专利权)人: 浙江工商大学;浙江理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天正专利事务所有限公司33201 代理人: 王兵,黄美娟
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 环境 面向 民生 消费 领域 分布式 维度 异常 检测 方法
【权利要求书】:

1.大数据环境下面向民生消费领域的分布式跨维度异常数据检测方法,包括以下步骤:

步骤1.数据的Box切分:民生消费领域的数据量大,在采用分布式计算进行处理前,对输入数据集进行切分,形成Count(b)个Box,且Box集合中各个Box内的数据点pdata个数不等,其中为输入数据的集合。则切分算法可以用如下方式描述为:

算法1.SLICE(Box b,DIMENSION l).

并有:

MVALbl=12(btopl+bbottoml)---(1)]]>

AVGpdata=COUNTpdata(Dsetinput)COUNT(Mnode)---(2)]]>

其中,和分别为Box b在维度l上的上下界,COUNTpdata(bleft),

COUNTpdata(bright),和COUNT(Mnode)分别为两个子Box、输入数据集上的数据点数量和分布式计算环境中运算节点的数量,L为维度数量。

步骤2.Box编码树构建:构建非平衡二叉编码树,用以快速定位Box之间的邻接关系,其构建步骤为:

T101.根结点代表数据集的完整区域,其编码记为Ο;

T102.切分后左右子Box的分别为bleft和bright

T103.bleft在编码树中为其父Box的左子结点,其编码为

CODEleft=CODEparent+"0",CODEparent为父Box的结点编码;

T104.bright在编码树中为其父Box的右子结点,其编码为

CODEright=CODEparent+"1",CODEparent为父Box的结点编码;

T105.继续构建直到切分完成。

确定一个Box的邻接Box的方法,被选Box bs的编码为1001,对应非平衡二叉编码树,得其第0维为1、0,合起来为二进制10,十进制为2,其第1维编码的十进制表示为1,据此推导其它Box。找到在该维度分割方向上的编码十进制表示与bs相同的Box为邻接Box。

步骤3.Box在各运算节点上的分配:对一个Box集合通常情况下有Count(b)≥COUNT(Mnode),则分配流程如下:

T201.以Box集合运算结点集合为输入,对Bset中的Box进行降序排列得

T202.取前COUNT(Mnode)个Box分别分配给Mset中的每一个结点;

T203.对于中的每一个未被分配的Box计算Mset中的每一个结点现已分配Box所有pdata数量的均值,记为初始化空结点集合Mtmp,将Mset中所有分配到pdata数量不小于的结点加入Mtmp

T204.对Mtmp中结点按含pdata数量升序排列,得到根据步骤2中确定邻接Box的方法,找出与biunalloc邻接Box最多节点mi,将biunalloc分配给mi

步骤4.异常数据检测:输入数据集合Box个数Count(b),经过分配后在计算节点上执行每个数据点的离群度的计算,其公式如下:

DISpdatai=Σj=0,j≠iCOUNT(pdata)|DEi‾-DEij|2COUNT(pdata)---(3)]]>

DEi‾=Σj=0,j≠iCOUNT(pdata)DEijCOUNT(pdata)---(4)]]>

DEij‾=Σl∈[1,L](pil-pjl)2---(5)]]>

其中,和COUNT(pdata)分别为维度l第i、第j个数据点和参与运算的数据点的总数。计算数据点的局部离群量令为参与运算的数据点的最大局部离群量,并计算相对离群量公式如下:

Fpilp=Σi=1COUNT(pdata)DISpdataiCOUNT(pdata)·DISpdatai---(6)]]>

Rpilp=FpilpMAX(Fplp)---(7)]]>

从中筛选出的数据点,便得到异常点集合,其中η为事先确定的一个值,通常取值在[0.8,1]之间能取得较好的结果。

若考虑政策管控下的民生消费品因素,异常点检测过程相对简单,只要将数据点与政策约束的取值区间进行比对,就能得到异常点集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学;浙江理工大学,未经浙江工商大学;浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710673570.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top