[发明专利]一种基于测地线距离的异常点检测方法有效

专利信息
申请号: 201810517949.7 申请日: 2018-05-25
公开(公告)号: CN108921192B 公开(公告)日: 2020-01-21
发明(设计)人: 李孝杰;史沧红;罗超;吴锡;吕建成;周激流 申请(专利权)人: 成都信息工程大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 11548 北京华仲龙腾专利代理事务所(普通合伙) 代理人: 李静
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 异常点检测 测地距离 异常点 测地线 数据集 样本点 检测 矩阵 输入数据集 高维数据 数据分布 数据维度 邻接 边缘点 构建 创建 应用
【说明书】:

发明涉及一种基于测地线距离的异常点检测方法,其包括:输入数据集X;针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵;针对各样本点计算测地距离ηi以及各点的度deg(xi);计算平均测地距离设定阈值τ,计算样本点的实际度Rdeg(xi);判断特殊点和异常点。本发明提高了异常点检测的性能,更好的反应了数据集的结构特征,且可同时检测到异常点和边缘点。此外,本发明的方法受数据分布和数据维度影响较弱,在实际应用中适用范围更广,解决了现有技术对异常点的检测精度不高和对高维数据检测性能不佳的缺陷。

技术领域

本发明属于数据挖掘领域,尤其涉及一种基于测地线距离的异常点检测方法。

背景技术

在识别异常点的过程中异常值检测是一项最重要的任务,由于异常点分布不均衡等原因,传统的异常点检测方法会导致不准确甚至错误的识别结果。异常值检测技术能够有效的提高异常点检测的性能。传统的异常点检测技术主要是聚类、分类以及模式识别,这些传统的技术是找到一种通用模式来识别数据中有意义的模式,而异常点检测技术只需要识别出异常点和边界点,而不需要识别出正常点。例如,在一个检测生命紊乱的系统中,把正常的人看作正常点,把生命特征紊乱的病人看作异常点,把生命危险的病人看作边界点,这样此系统就可以帮助观察病人的生命特征情况,特别是针对和异常点、边界点生命特征相符合的病人重点观察。异常值检测比正常模式检测更重要。

现有的技术方案主要包括:利用统计学来研究异常点数据和基于距离的检测方法。

利用统计学来研究异常点数据是一种比较早使用的方法,通过分析数据的分布情况及离散程度来识别异常点,此方法通常需要一些数据特征变化的指标来判断是否是异常点。目前常用的指标有均差、标准差及特征变化指标,变化指标越大则表示该数据集变化较大,离散程度强;变化指标值越小,则说明该数据变化较小,较密集分布。然而,基于统计的方法有一个严重的缺陷,使用该方法检测出来的异常点也可以使用其它多种方法检测出来,这会产生多义性,也就是说产生这些异常点的原理不一样;除此之外,使用统计方法类检测异常点很大程度上需要依赖于数据点的分布是趋近于某种数学分布,这对检测的准确性有很重要的意义。

基于距离的异常点检测是近几年来比较受欢迎的技术之一,该技术是对于两个给定的点之间计算欧式距离。然而单纯的计算欧式距离并不能有效、准确地识别所有异常点。根据检测方法是否需要标签,可以把检测方法分为监督式、半监督式及无监督式,其中无监督式是最具有挑战性的一种方法,因为缺乏有效的标签训练,并且再加上数据分布的不平衡性,就更加剧了检测结果的不准确性。针对此问题,传统的解决方式是局部异常值模式,但此方法也会因数据分布的不平衡性导致检测结果的不稳定性以及不准确性。

综上,现有的异常点检测算法在特定条件或特定领域下效果较好,或者对较低维空间的异常点检测效果较好,当数据的维度较高,这些算法的效果并不理想,泛化能力较弱。目前高维空间的异常点检测研究还处于起步阶段。例如,Kriegel提出了基于角度的异常点检测算法(ABOD),该算法不依赖于参数选择问题。然而,ABOD算法仅考虑当前点与邻居的关系,而没考虑其邻居之间的更多关系,导致该算法识别到错误的异常点。因此,对于高维空间中的异常点检测算法还有待更加深入的研究。因此,如何进一步提高异常点检测精度和效率成为目前数据挖掘领域需要解决的技术问题。

发明内容

针对现有技术之不足,本发明提出了一种基于测地线距离的异常点检测方法,其包括以下步骤:

S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数;

S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810517949.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top