[发明专利]基于自适应网格边界划分的多维数据聚类改进算法在审
申请号: | 202210229884.2 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114943266A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 赫斌;何云斌;赵琦 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 网格 边界 划分 多维 数据 改进 算法 | ||
本发明针对CLIQUE算法参数人工选择的缺点,本文提出一种于自适应网格边界划分的多维数据聚类改进算法。首先对人工输入的密度阈值参数进行改进,将每个维度划分为多个网格单元,然后计算每个维度投影的数据点数和和非空单元网格的个数和,计算出密度阈值。之后针对维度过高时产生的问题进行改进,当进行聚类时,子空间的密集连通单元网格的数量等于1时,说明该子空间将所有数据聚为一类,同时也会删除一些孤立点和少部分簇中数据点,故对数据聚类帮助不大,可将此维度舍弃。密集连通单元网格的数量大于1时,说明该子空间能够有效帮助聚类,可将此子空间保留下来。最后采用自适应网格边界划分,改进原先硬划分网格单元的问题。
技术领域
本发明属于聚类分析技术领域,主要是为多维数据聚类算法进行改进优化。具体是一种基于自适应网格边界划分的多维数据聚类改进算法,可应用于市场分析、信息安全、金融、娱乐等多个领域。
背景技术
聚类分析是数据挖掘的重要技术,它根据数据点的相似性将数据集划分为类簇,使得同一类簇的样本具有较高的相似性,不同类簇间的样本具有较高的差异性。聚类可以从数据中揭示隐藏的模式和规律,是认识和了解世界的重要方式。在机器学习、数据挖掘、图像处理等领域取得了广泛研究与应用。
到目前为止,已经有很多种聚类算法被提出。根据对数据点的处理方式不同,可以分为基于层次的聚类算法、基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法等。但是大部分算法都是基于距离和密度,或是在此基础上加以改进的算法,这些算法只能聚类分析簇成球状的数据对象,或仅为低维空间数据设计的,但是在实际生活中,随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大,复杂性越来越高,所以在处理很多实际问题时,这些聚类算法就显得力不从心,不能得到很好的聚类效果。
为了解决这个问题,R.Agrawal首次提出了子空间聚类的概念。在1998年,RakeshAgrawal等提出的对多维数据的自动子空间聚类算法CLIQUE,该算法有效结合了基于密度和网格的优点,可以自动识别数据子空间中的簇,同时整个聚类过程相比于其他算法更为高效。
CLIQUE算法所采用的先验性质(Apriori property)如下:
(1)如果一个k维单元是密集的,那么它在k-1维空间上的投影也是密集的;
(2)给定一个k维的候选密集单元,若他的任何一个k-1维投影单元不是密集的,那么则认定第k维的单元也不可能是密集的;
(3)可以从k-1维空间中发现的密集单元来推断k维空间中潜在的或候选的密集单元。通常,最终的结果空间要比初始空间要小的多。
CLIQUE算法的基本思想是:CLIQUE是基于密度和基于网格的聚类方法
(1)它将每个维划分成相同个数的等长区间;
(2)它将m-维数据空间划分成不重叠的长方形单元;
(3)对每个单元进行数据点计数,大于输入的密度阈值参数的单元,则称该单元维密集单元。
(4)簇是相连的密集单元的最大集合。
CLIQUE把数据空间分割成单元网格,将落到某个单元中的点的个数当成这个单元的密度,人工可以指定一个密度阈值,当某个单元的点的个数大于阈值时,就认定该单元网格是密集的。在CLIQUE中,聚类定义为相连的密集单元的最大集合。
整个CLIQUE算法的聚类过程:
步骤1:根据单元网格划分参数的值将原数据表的每一维划分成相等的区间,同时将每一维上区间的划分保存下来;
步骤2:n=1;这时所有的单元都为候选密集单元;
步骤3:扫描原数据表,找出n维子空间中落在每个候选密集单元的数据点数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210229884.2/2.html,转载请声明来源钻瓜专利网。