[发明专利]一种隔离分布核构建方法、异常数据检测方法及装置有效

专利信息
申请号: 202010565100.4 申请日: 2020-06-19
公开(公告)号: CN111666316B 公开(公告)日: 2023-09-15
发明(设计)人: 陈开明;徐碧村;鷲尾隆;周志华 申请(专利权)人: 南京大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F18/22
代理公司: 江苏瑞途律师事务所 32346 代理人: 金龙
地址: 210023 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 隔离 分布 构建 方法 异常 数据 检测 装置
【说明书】:

发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。

技术领域

本发明涉及机器学习和数据挖掘技术领域,更具体地说,涉及一种隔离分布核构建方法、异常数据检测方法及装置。

背景技术

在现有的异常数据检测的应用中,由于使用了具有无限维度特征映射的数据独立内核,OCSVM的运行速度比基于树的异常检测器iForest慢几个数量级,并且检测精度也较弱。在集群的背景下,最新的可伸缩内核k-means必须使用超级计算机的特殊硬件来处理数百万个数据点的数据集,然而这是一种缓解方法,没有从根本上解决时间复杂度高的问题。

加速基于内核的算法的一种重要方法是内核函数的逼近,其目的是产生用户可控制的有限数量的代理特征,以逼近具有无穷维特征映射的所选非线性内核函数。成功的方法有如下两种:(1)嵌入方法,该方法使用给定数据集中的样本点构造低秩r矩阵,并得出代理特征数据的矢量表示;(2)基于傅立叶变换推导随机特征,与给定数据集无关。两种方法均使用代理特征生成所选非线性内核的近似特征映射,这些特征旨在用作线性学习算法的输入,这一类算法可以高效运行以处理大规模数据集,但是由于使用近似特征映射,因此牺牲了计算精度。

简而言之,现有的内核函数的逼近方法有两个关键问题。首先,近似特征映射可以达到的最佳精度低于所选数据独立内核的精度,而且数据独立的内核已被证明比与数据相关的内核效果更差。其次,当前的内核函数近似方法不适用于没有函数形式的数据相关内核。

目前来说,基于内核的异常检测算法最先进的两种算法是OCSVM(One-ClassSupport Vector Machines)和OCSMM(One-Class Support MeasureMachines),OCSVM是用于点异常检测的一类支持向量机,OCSMM是用于群异常检测的一类支持向量机。尽管基于核的算法很有潜力,但是计算一个给定的n个数据点的数据集中的所有点对,其时间复杂度为O(n2),所需的时间成本较高,导致该类算法的发展受到了阻碍。基于上述原因,OCSVM和OCSMM都无法处理大规模的数据集。

发明内容

1.要解决的技术问题

针对现有技术中存在的相似性度量与数据分布无关造成精度过低并且运行速度缓慢的问题,本发明提供了一种隔离分布核构建方法、异常数据检测方法及装置,它可以实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。

2.技术方案

本发明的目的通过以下技术方案实现。

一种隔离分布核构建方法,从给定数据集中产生隔离分布核,包括如下步骤:

使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D),每一个划分Wi(partitioning)都有固定数量ψ个隔离分区我们使用一种现有的,称为iNNE(Isolation by Nearest Neighbor Ensemble)的空间划分机制,不过它作为隔离内核特征映射Φ(·|D)是新提出的,图2展示了隔离分区为超球的例子,Vψ(D)用于产生隔离内核的特征映射Φ(·|D);

从给定数据集D中产生隔离内核的特征映射Φ(·|D);

定义隔离内核:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010565100.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top