[发明专利]基于自适应网格边界划分的多维数据聚类改进算法在审

专利信息
申请号: 202210229884.2 申请日: 2022-03-09
公开(公告)号: CN114943266A 公开(公告)日: 2022-08-26
发明(设计)人: 赫斌;何云斌;赵琦 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 自适应 网格 边界 划分 多维 数据 改进 算法
【说明书】:

发明针对CLIQUE算法参数人工选择的缺点,本文提出一种于自适应网格边界划分的多维数据聚类改进算法。首先对人工输入的密度阈值参数进行改进,将每个维度划分为多个网格单元,然后计算每个维度投影的数据点数和和非空单元网格的个数和,计算出密度阈值。之后针对维度过高时产生的问题进行改进,当进行聚类时,子空间的密集连通单元网格的数量等于1时,说明该子空间将所有数据聚为一类,同时也会删除一些孤立点和少部分簇中数据点,故对数据聚类帮助不大,可将此维度舍弃。密集连通单元网格的数量大于1时,说明该子空间能够有效帮助聚类,可将此子空间保留下来。最后采用自适应网格边界划分,改进原先硬划分网格单元的问题。

技术领域

本发明属于聚类分析技术领域,主要是为多维数据聚类算法进行改进优化。具体是一种基于自适应网格边界划分的多维数据聚类改进算法,可应用于市场分析、信息安全、金融、娱乐等多个领域。

背景技术

聚类分析是数据挖掘的重要技术,它根据数据点的相似性将数据集划分为类簇,使得同一类簇的样本具有较高的相似性,不同类簇间的样本具有较高的差异性。聚类可以从数据中揭示隐藏的模式和规律,是认识和了解世界的重要方式。在机器学习、数据挖掘、图像处理等领域取得了广泛研究与应用。

到目前为止,已经有很多种聚类算法被提出。根据对数据点的处理方式不同,可以分为基于层次的聚类算法、基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法等。但是大部分算法都是基于距离和密度,或是在此基础上加以改进的算法,这些算法只能聚类分析簇成球状的数据对象,或仅为低维空间数据设计的,但是在实际生活中,随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大,复杂性越来越高,所以在处理很多实际问题时,这些聚类算法就显得力不从心,不能得到很好的聚类效果。

为了解决这个问题,R.Agrawal首次提出了子空间聚类的概念。在1998年,RakeshAgrawal等提出的对多维数据的自动子空间聚类算法CLIQUE,该算法有效结合了基于密度和网格的优点,可以自动识别数据子空间中的簇,同时整个聚类过程相比于其他算法更为高效。

CLIQUE算法所采用的先验性质(Apriori property)如下:

(1)如果一个k维单元是密集的,那么它在k-1维空间上的投影也是密集的;

(2)给定一个k维的候选密集单元,若他的任何一个k-1维投影单元不是密集的,那么则认定第k维的单元也不可能是密集的;

(3)可以从k-1维空间中发现的密集单元来推断k维空间中潜在的或候选的密集单元。通常,最终的结果空间要比初始空间要小的多。

CLIQUE算法的基本思想是:CLIQUE是基于密度和基于网格的聚类方法

(1)它将每个维划分成相同个数的等长区间;

(2)它将m-维数据空间划分成不重叠的长方形单元;

(3)对每个单元进行数据点计数,大于输入的密度阈值参数的单元,则称该单元维密集单元。

(4)簇是相连的密集单元的最大集合。

CLIQUE把数据空间分割成单元网格,将落到某个单元中的点的个数当成这个单元的密度,人工可以指定一个密度阈值,当某个单元的点的个数大于阈值时,就认定该单元网格是密集的。在CLIQUE中,聚类定义为相连的密集单元的最大集合。

整个CLIQUE算法的聚类过程:

步骤1:根据单元网格划分参数的值将原数据表的每一维划分成相等的区间,同时将每一维上区间的划分保存下来;

步骤2:n=1;这时所有的单元都为候选密集单元;

步骤3:扫描原数据表,找出n维子空间中落在每个候选密集单元的数据点数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210229884.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top