[发明专利]一种基于局部选择并行集成的异常值检测方法在审

申请号：	202110188566.1	申请日：	2021-02-19
公开（公告）号：	CN112906788A	公开（公告）日：	2021-06-04
发明（设计）人：	郭鹏飞;魏子夏	申请（专利权）人：	辽宁工程技术大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/18
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	125105 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于局部选择并行集成异常检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于局部选择并行集成的异常值检测方法，其特征在于：包括以下步骤：

步骤1：生成检测器；对多个同质检测器使用不同的参数进行初始化来生成不同的检测器；

令X_train∈R表示n个点的训练数据和d个特征构成的数据集，X_test∈R表示m个点的测试数据集；首先是生成一个检测器组，该检测器组由b个不同参数初始化的检测器组成，分别为F＝{f₁，f₂，...，f_b}，其中，f_i(D)表示第i个检测器检测的训练数据的异常值得分，i＝1、2、...、b，D为训练数据集；

步骤2：生成局部区域；

kNN_ens首先构建特征空间，随机选择t组，每组z个特征，其中然后使用欧几里得距离找到与测试数据最接近的k个训练数据，这k个训练数据构成测试数据的局部区域ψ，使用kNN计算局部区域的大小，由下面公式来表示：

ψ＝{D_p|D_p∈X_train，D_p∈kNN_ens}

其中，D_p表示局部区域内的第p个训练数据，p＝1、2、...、n；

步骤3：检测器的选择和组合；

采用误差分析的方法对检测器进行权重计算，获取最优检测器；将伪异常值转化为二进制标签，采用Cantelli的不等式的方式来估计转化阈值，置信度设置为20％，最终得到数据的二进制标签；在有了标签之后，对检测器进行一致率计算，从检测器检测的异常值上来计算其一致率；将所有基本检测器上检测的异常值进行并集，设为U，用于后续计算一致率上；

步骤3.1：一致率计算；

生成基本检测器f_i，j之后，将训练数据集D输入其中，类别标签为Y，f_i，j∈F，i＝1、2、...、b，j＝1、2、...、b，|F|＝b；这样集合A中的一组检测器发生错误的事件E_A被定义为这一组检测器均发生错误时的事件，如下式所示：

其中，|A|＝2；A中的一组检测器错误率就定义为A中所有检测器一起犯错的概率e_A，e_A＝P(E_A)；

检测器的成对一致率是两者均有错或均没错的概率，这样一致率的方程如下式：

其中，a_{i，j}表示两个检测器的成对一致率，E_{i}E_{j}表示单独的检测器发生错误的事件；e_{i}e_{j}表示单独的检测器发生错误的概率；e_{i，j}表示两个检测器一起犯错的概率；

A中的一组检测器的一致率直接从检测器的输出中得到，公式如下：

其中，e_A表示检测器的成对一致率，D_u表示第u个训练数据，u∈(1...|U|)；

将错误率估计当做约束优化问题，一致率方程就必须满足如下约束：

其中，为A中的检测器发生错误的概率，包含各个检测器以及成对的检测器，即表示松弛变量；

步骤3.2：加权聚合；

由以下公式来计算权重：

其中，w_i是检测器i的权重，w_i≥0，i＝1、2、...、b，每个检测器的估计误差e_i∈[0，1]；