[发明专利]一种基于局部选择并行集成的异常值检测方法在审
申请号: | 202110188566.1 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112906788A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 郭鹏飞;魏子夏 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 125105 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 选择 并行 集成 异常 检测 方法 | ||
本发明提供一种基于局部选择并行集成的异常值检测方法,涉及异常值检测技术领域。该方法首先通过对随机选择的测试实例定义其局部区域,然后用误差分析的方法计算出局部区域内的检测器权重,选择出高性能的检测器,最后将各个检测器的结果加权组合。通过对多个现实世界数据集的实验表明,本发明的方法与传统的异常值检测方法相比大多具有更优异的结果。
技术领域
本发明涉及异常值检测技术领域,尤其涉及一种基于局部选择并行集成的异常值检测方法。
背景技术
异常值检测是一个研究十分广泛的领域,其目的是在一般的数据分布当中找到异常的数据对象,在网络入侵检测、信用卡欺诈等方面都有着重要的作用。目前有许多成功的检测方法,例如基于密度的和基于距离的方法,这些方法的核心机制都是基于kNN(k近邻)来找到异常点。因为异常值的挖掘中往往缺乏数据标注,因此需要使用无监督的方法来进行工作。但是由于无监督的方法很容易出现较高的假阳性率及假阴性率。为了提高检测的准确性以及模型的稳定性,针对异常检测的集成方法最近得到了越来越多的关注,集成的目的是为了将多个检测器的结果组合到一起来获得更好的结果。
集成学习将多个基本估计量进行组合,与单个基本估计量相比,这种形式具有更加出色的检测性能和更高的准确性。异常集成学习可以分为两种,第一种是顺序集成,其通过迭代的方式对基础检测器进行选择或者组合来获得最终结果,这些检测器之间具有依赖性。另一种则是并行集成,这里基础检测器彼此独立生成,并且将各个检测器的结果组合到一起,最后得到最终的结果。在分类的背景下,已经提出了许多基于集成的方法,例如Bagging,AdaBoost,Random Forests。有些方法尝试在基础检测器上引入多样性,还有一些则是将候选的基本检测器的结果有选择的组合在一起。
模型的组合以及如何组合对于并行集成来说是关键的问题,如何确保组合的基本检测器是多样性的且最优的是主要需要解决的工作。现有的工作尚未很好的同时解决组合过程中的两个关键限制。第一,目前大部分的并行集成通常考虑将所有的基本检测器结合起来,这种方法简单可行,但是问题在于该方法也可能将检测性能很低的检测器一起组合,抵消了优质检测器的价值,降低了集成的检测性能。另外在缺乏数据标注时,如何组合模型是一项重要的且有挑战性的工作。在目前有一种流行的组合方法是加权平均,其使用检测器的得分与所有的训练点上的伪数据标注之间的皮尔逊相关性来作为检测器的权重。第二,检测器的选择一直都是从全局的角度来考虑的,很少有利用与测试实例相关的局部区域进行筛选,这样就导致了潜在的次优结果。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于局部选择并行集成的异常值检测方法,通过对随机选择的测试实例定义其局部区域,然后用误差分析的方法计算出局部区域内的检测器权重,选择出高性能的检测器,最后将各个检测器的结果加权组合,普遍优于传统的方法,检测效果有着较为明显的提升。
为解决上述技术问题,本发明所采取的技术方案是:
一种基于局部选择并行集成的异常值检测方法,包括以下步骤:
步骤1:生成检测器;对多个同质检测器使用不同的参数进行初始化来生成不同的检测器;
令Xtrain∈R表示n个点的训练数据和d个特征构成的数据集,Xtest∈R表示m个点的测试数据集;首先是生成一个检测器组,该检测器组由b个不同参数初始化的检测器组成,分别为F={f1,f2,...,fb},其中,fi(D)表示第i个检测器检测的训练数据的异常值得分,i=1、2、...、b,D为训练数据集;
步骤2:生成局部区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110188566.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种降噪混凝土墙板的加工方法
- 下一篇:数据规则挖掘方法及装置