[发明专利]一种基于多种支撑点的度量空间离群检测方法在审
| 申请号: | 201710695785.2 | 申请日: | 2017-08-15 |
| 公开(公告)号: | CN107480258A | 公开(公告)日: | 2017-12-15 |
| 发明(设计)人: | 许红龙;戎海武;何敏藩;文翰;杨勇 | 申请(专利权)人: | 佛山科学技术学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 王国标 |
| 地址: | 528000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多种 支撑点 度量 空间 离群 检测 方法 | ||
技术领域
本发明涉及数据挖掘领域,更具体地说涉及一种基于多种支撑点的度量空间离群检测方法。
背景技术
离群点是数据集中与众不同的数据点,其表现与其它点如此不同,以至于使人怀疑这些数据并非随机的偏差,而是由另外一种完全不同的机制所产生的。离群点也称异常点或者异常对象。离群点检测也称为异常检测、偏差检测或离群点挖掘,它就是按照一定的算法把数据集中的离群点检测出来。换言之,离群点检测就是挖掘海量数据中极少数与主流数据显著不同的点。
传统的离群检测技术,大多数是面向多维空间的,仅适用于多维数据,对于图像、音频视频、蛋白质等复杂数据类型无可奈何。仅有的少数离群检测方法基于度量空间,适用于大多数数据类型,但是却存在着索引效率低下,离群检测速度较慢等问题,其中以iORCA算法以及HIOD算法最为常用。
所述iORCA算法是本领域代表性算法,该算法随即选取数据集一对象作为支撑点,然后计算所有对象与支撑点的距离,再按降序排序,从而建立简单索引,检测离群点时,便是基于该索引,相当于按照与支撑点的距离,从远到近检测。
上述iORCA算法缺点在于仅仅使用一个支撑点,在节省建立索引时间的同时却导致了数据空间的扭曲,降低了索引质量,不能很好地发挥剪枝效率,而且该算法并未提供支撑点选取算法,所选取的支撑点是随即选取的,离群检测效果部稳定,最后该算法只用一个终止规则来判断是否停止检测离群点,未能发挥度量空间三角不等性作用来进一步减少距离计算次数。
所述HIOD算法针对iORCA算法中数据扭曲和忽略稀疏区域的问题而提出的,该算法首先选取两个支撑点以减少数据扭曲,然后用Hilbert曲线降维以建立索引,同时优先检测稀疏区域,并运用基于距离三角不等性的多个剪枝规则减少距离计算次数,提高检测速度。
上述HIOD算法克服了iORCA算法的缺点,但是该算法只选取一种支撑点同时达到密集支撑点和边缘支撑点目标,建立索引时间较长。
发明内容
本发明要解决的技术问题是:提供一种快速的基于多种支撑点的度量空间离群检测方法。
本发明解决其技术问题的解决方案是:
一种基于多种支撑点的度量空间离群检测方法,所述方法包括以下步骤:
选择距离函数步骤:根据数据集的数据类型,选择相应的距离函数;
支撑点选取步骤:读取数据集,在数据集中选取密集支撑点以及边缘支撑点,所述密集支撑点与边缘支撑点不重复;
建立索引步骤:分别计算数据集中所有对象与密集支撑点的距离,记为第一距离,按第一距离从大到小顺序排序,形成一维索引,分别计算数据集中所有对象与边缘支撑点的距离,记为第二距离,以第一距离和第二距离作为坐标,形成支撑点空间;
离群检测步骤:将所述一维索引划分成多个数据块,并对所述数据块逐块进行离群点检测。
作为上述技术方案的进一步改进,所述支撑点选取步骤中选取密集支撑点包括以下步骤:
从数据集中随机选取一个对象作为第一基准点;
计算数据集中所有对象与第一基准点的距离,记为第三距离;
按照第三距离大小对数据集中的所有对象进行排序,并将所述数据集划分成多个数据段,每个数据段中对象的数量相等;
计算每个数据段的距离增量,距离增量最小的数据段记为最密集区域;
计算所述最密集区域的中点,记为密集支撑点。
作为上述技术方案的进一步改进,所述支撑点选取步骤中选取边缘支撑点包括以下步骤:
设置支撑点数量阈值,设置边缘支撑点集并初始化为空集;
在数据集中随机选取一个对象作为第二基准点;
计算数据集中除边缘支撑点集以外所有对象与边缘支撑点集的距离,记为第四距离,选取第四距离最大的对象作为下一个边缘支撑点并添加到边缘支撑点集中,判断边缘支撑点集中对象的数目是否等于支撑点数量阈值,如果是,完成边缘支撑点选取,如果不是,重复此步骤;
通过所述距离函数,计算边缘支撑点集中各个边缘支撑点与密集支撑点的距离,若边缘支撑点与密集支撑点距离为零,删除该边缘支撑点,返回上一个步骤,继续选取下一个边缘支撑点并将其添加到边缘支撑点集中,直到边缘支撑点集中对象的数目等于支撑点数量阈值且边缘支撑点集中各个边缘支撑点与密集支撑点的距离均不为零;
边缘支撑点选取完成后,将所述第二基准点从边缘支撑点集中删除。
作为上述技术方案的进一步改进,所述离群检测步骤包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710695785.2/2.html,转载请声明来源钻瓜专利网。





