[发明专利]一种基于测地线距离的异常点检测方法有效
申请号: | 201810517949.7 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108921192B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 李孝杰;史沧红;罗超;吴锡;吕建成;周激流 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11548 北京华仲龙腾专利代理事务所(普通合伙) | 代理人: | 李静 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常点检测 测地距离 异常点 测地线 数据集 样本点 检测 矩阵 输入数据集 高维数据 数据分布 数据维度 邻接 边缘点 构建 创建 应用 | ||
1.一种基于测地线距离的异常点检测方法,其特征在于,包括以下步骤:
S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,所述数据集X的每一列表示一个数据样本,即X包括n个样本,每个样本具有m维,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数;
S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素;
S3)基于测地距离矩阵D∈Rn×n,针对各个样本点xi,i∈{1,2,…n}计算测地距离ηi以及各点的度deg(xi),具体如下所示:
其中
其中,xi表示所述数据X中第i个数据样本;如果数据集中第i个数据点xi和第j个数据点xj的有直接连接关系,则χ(dij)为1,否则为0;
S4)计算平均测地距离其公式为:
S5)设定阈值τ,计算数据集X中样本点xi的实际度Rdeg(xi),其公式为:
R deg(xi)=#{di1<τ,di2<τ,…din<τ} (2)
其中,R deg(xi)用于统计数据集X中与xi点相连接且其dij小于τ的个数,τ表示设定的关于dij的阈值;
S6)判定异常点,其包括:
S6.1)给定数据集X,t是一常数且t<1,假设Ω包括实际度数满足的数据点xi,Ψ包括满足的数据点xi,其中,为数据集Rdeg(xi)的均值,为数据集的均值;
S6.2)如果xi∈{Ω∪Ψ},则xi被判定为异常点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810517949.7/1.html,转载请声明来源钻瓜专利网。