[发明专利]离群点的挖掘方法及挖掘装置在审
申请号: | 201510727301.9 | 申请日: | 2015-10-30 |
公开(公告)号: | CN106649339A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 于冰 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离群 挖掘 方法 装置 | ||
1.一种离群点的挖掘方法,其特征在于,包括:
将多维数据集划分为多个网格单元,并确定所述多维数据集中的每个数据点所在的网格单元;
根据所述多个网格单元中的每个网格单元内的数据点的个数,确定所述多个网格单元中的边界单元;
基于LOF算法对所述边界单元中的数据点进行离群点的挖掘。
2.根据权利要求1所述的离群点的挖掘方法,其特征在于,所述将多维数据集划分为多个网格单元的步骤具体包括:
根据所述多维数据集中每一维数据集的相邻数据点之间的平均距离,计算所述每一维数据集的划分间隔值;
基于所述每一维数据集的划分间隔值将所述多维数据集划分为多个网格单元。
3.根据权利要求2所述的离群点的挖掘方法,其特征在于,根据所述多维数据集中每一维数据集的相邻数据点之间的平均距离,计算所述每一维数据集的划分间隔值的步骤具体包括:
将所述每一维数据集中的数据点进行排序,以确定所述每一维数据集的值域;
计算所述每一维数据集中相邻数据点之间的间隔值,并统计每个间隔值的个数;
根据以下公式计算所述每一维数据集的划分间隔值:
4.根据权利要求1所述的离群点的挖掘方法,其特征在于,确定所述多个网格单元中的边界单元的步骤具体包括:
通过哈希表存储所述多个网格单元中的非空网格单元的信息;
根据所述非空网格单元的相邻单元内的数据点的数量,确定所述多个网格单元中的边界单元。
5.根据权利要求1至4中任一项所述的离群点的挖掘方法,其特征在于,基于LOF算法对所述边界单元中的数据点进行离群点的挖掘的步骤具体包括:
基于所述LOF算法计算所述边界单元中的每个数据点的LOF值;
按照LOF值从大到小的顺序,取出所述边界单元中预定个数的数据点作为挖掘出的所述离群点。
6.一种离群点的挖掘装置,其特征在于,包括:
划分单元,用于将多维数据集划分为多个网格单元,并确定所述多维数据集中的每个数据点所在的网格单元;
确定单元,用于根据所述多个网格单元中的每个网格单元内的数据点的个数,确定所述多个网格单元中的边界单元;
处理单元,用于基于LOF算法对所述边界单元中的数据点进行离群点的挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510727301.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:座椅(FLOORCHAIR)
- 下一篇:条件过滤数据的存取方法及装置