[发明专利]一种基于局部选择并行集成的异常值检测方法在审
申请号: | 202110188566.1 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112906788A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 郭鹏飞;魏子夏 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 125105 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 选择 并行 集成 异常 检测 方法 | ||
1.一种基于局部选择并行集成的异常值检测方法,其特征在于:包括以下步骤:
步骤1:生成检测器;对多个同质检测器使用不同的参数进行初始化来生成不同的检测器;
令Xtrain∈R表示n个点的训练数据和d个特征构成的数据集,Xtest∈R表示m个点的测试数据集;首先是生成一个检测器组,该检测器组由b个不同参数初始化的检测器组成,分别为F={f1,f2,...,fb},其中,fi(D)表示第i个检测器检测的训练数据的异常值得分,i=1、2、...、b,D为训练数据集;
步骤2:生成局部区域;
kNNens首先构建特征空间,随机选择t组,每组z个特征,其中然后使用欧几里得距离找到与测试数据最接近的k个训练数据,这k个训练数据构成测试数据的局部区域ψ,使用kNN计算局部区域的大小,由下面公式来表示:
ψ={Dp|Dp∈Xtrain,Dp∈kNNens}
其中,Dp表示局部区域内的第p个训练数据,p=1、2、...、n;
步骤3:检测器的选择和组合;
采用误差分析的方法对检测器进行权重计算,获取最优检测器;将伪异常值转化为二进制标签,采用Cantelli的不等式的方式来估计转化阈值,置信度设置为20%,最终得到数据的二进制标签;在有了标签之后,对检测器进行一致率计算,从检测器检测的异常值上来计算其一致率;将所有基本检测器上检测的异常值进行并集,设为U,用于后续计算一致率上;
步骤3.1:一致率计算;
生成基本检测器fi,j之后,将训练数据集D输入其中,类别标签为Y,fi,j∈F,i=1、2、...、b,j=1、2、...、b,|F|=b;这样集合A中的一组检测器发生错误的事件EA被定义为这一组检测器均发生错误时的事件,如下式所示:
其中,|A|=2;A中的一组检测器错误率就定义为A中所有检测器一起犯错的概率eA,eA=P(EA);
检测器的成对一致率是两者均有错或均没错的概率,这样一致率的方程如下式:
其中,a{i,j}表示两个检测器的成对一致率,E{i}E{j}表示单独的检测器发生错误的事件;e{i}e{j}表示单独的检测器发生错误的概率;e{i,j}表示两个检测器一起犯错的概率;
A中的一组检测器的一致率直接从检测器的输出中得到,公式如下:
其中,eA表示检测器的成对一致率,Du表示第u个训练数据,u∈(1...|U|);
将错误率估计当做约束优化问题,一致率方程就必须满足如下约束:
其中,为A中的检测器发生错误的概率,包含各个检测器以及成对的检测器,即表示松弛变量;
步骤3.2:加权聚合;
由以下公式来计算权重:
其中,wi是检测器i的权重,wi≥0,i=1、2、...、b,每个检测器的估计误差ei∈[0,1];
丢弃估计误差ei≥0.5的检测器,为h个,之后使用加权聚合来组合各个检测器检测到的异常值得分;
采用高斯尺度将异常值得分转化为概率估计
最后使用概率估计的加权平均值来计算测试数据的最终得分ws(x),公式如下:
得分越高的点其异常的可能性越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110188566.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种降噪混凝土墙板的加工方法
- 下一篇:数据规则挖掘方法及装置