[发明专利]一种基于势能熵的拉普拉斯中心性峰值数据聚类方法在审
| 申请号: | 201811003268.5 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109255378A | 公开(公告)日: | 2019-01-22 |
| 发明(设计)人: | 杨旭华;金林波 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458;G06F17/16 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
| 地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 势能 中心性 待分类数据 峰值数据 计算网络 预处理 聚类过程 数据集中 原始数据 自动抽取 自动完成 最小距离 全耦合 数据集 自动地 加权 分类 转化 应用 网络 | ||
一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,预处理待分类数据集,使待分类数据集转化成为一个加权全耦合网络,计算网络中所有节点的拉普拉斯中心性和最小距离值,计算网络中任意节点的势能,计算势能熵并从数据集中自动抽取参数,应用DBSCAN框架对数据集分类并完成聚类。本发明特点是从原始数据集中提取所需要的参数,然后自动地找到聚类的正确数量,实现真正无参数的聚类。这将达到准确性较高,不用人为设定参数,自动完成聚类过程的效果。
技术领域
本发明涉及数据挖掘领域,特别是指一种基于势能熵的拉普拉斯中心性峰值数据聚类方法。
背景技术
随着科技的发展以及人们获取数据手段的多样化,人类所拥有的数据从数量和结构上都有了巨大的提升,如何从这些数据中挖掘有用的信息已经越来越成为一种必要的技术。传统的数据分析是对存储在数据库中的数据进行存取和简单的操作,我们通过这种方法获得的数据所蕴含的信息量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据背后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。这就引起了对强有力的数据分析方法的急切需求。对于快速增长的海量数据,如果没有强有力的分析方法,理解它们已经远远超出了人的能力。
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类算法是数据挖掘的一种重要方法,旨在找寻数据内在的分布结构,以便做进一步的数据分析,在模式识别,机器学习,信息检索,计算机视觉等领域被广泛应用。在聚类任务中,相似性和不相似性的度量以及我们如何定义正确的聚类是重要的研究内容,根据不同的学习方法,已经有很多种类型的聚类算法被提出。然而,目前绝大多数聚类算法都需要人为设定参数,为了得到较好的聚类效果往往需要反复的进行参数调试,对聚类效果有一定影响。
发明内容
为了克服现有聚类算法在聚类过程中需要人为设定参数和不能自动完成聚类等问题,同时考虑提升聚类效果的性能,本发明提出了一种准确性较高、无参数、可以自动完成聚类过程的一种基于势能熵的拉普拉斯中心性峰值数据聚类方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,包括以下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811003268.5/2.html,转载请声明来源钻瓜专利网。





