[发明专利]一种基于密度自适应距离的密度峰聚类算法在审
申请号: | 201610228374.8 | 申请日: | 2016-04-13 |
公开(公告)号: | CN105930862A | 公开(公告)日: | 2016-09-07 |
发明(设计)人: | 葛洪伟;李涛;李莉;朱嘉钢 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于密度自适应距离的密度峰聚类算法,主要解决基于欧氏距离的密度峰聚类算法无法有效处理复杂结构数据集的问题。实现过程为:(1)基于欧氏距离和自适应相似度计算密度自适应距离,以更好地描述数据空间分布结构;(2)基于密度自适应距离,根据数据点的邻居点总数占数据集样本总数的比例值计算算法的输入参数,即截断距离;(3)根据截断距离和密度自适应距离计算每个数据点的局部密度和该点到具有更高局部密度点的最短距离,绘制决策图,选取聚类中心;(4)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇,得到聚类结果。在人工数据集和UCI真实数据集上的实验表明,与基于欧氏距离的密度峰聚类算法相比,本发明不仅能够有效处理复杂结构数据集,而且具有更高的准确率。 | ||
搜索关键词: | 一种 基于 密度 自适应 距离 峰聚类 算法 | ||
【主权项】:
一种基于密度自适应距离的密度峰聚类算法,包括以下步骤:(1)输入数据集X={x1,x2,…,xn}∈RD,数据点的邻居点总数占数据集样本总数的比例值p,距离调节因子α;其中,n表示样本个数,D表示样本维数;(2)首先,计算数据点xi与xj之间的欧氏距离:
得到欧氏距离矩阵dn×n。其次,计算点xi与xj之间的自适应相似度:
得到相似度矩阵Sn×n。其中,局部尺度参数σi定义为σi=d(xi,xkn);σi表示点xi与其第kn个近邻点xkn的欧氏距离,取kn=6;(3)基于自适应相似度Sn×n和欧氏距离矩阵dn×n定义局部密度自适应距离LD(xi,xj);(4)基于局部密度自适应距离,将数据集构造为加权无向图G,设p为图G上一条连接点xi与xj的路径,|p|表示路径p的长度,pij表示连接点xi与xj的所有路径的集合,全局密度自适应距离定义为:
(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc:首先对n个样本点的m=n(n‑1)/2个全局密度自适应距离进行快速排序,设按升序排序后的距离有gd1≤gd2≤…≤gdm,则
其中,
表示对pm/100向上取整;(6)基于全局密度自适应距离和截断距离计算每个点i的局部密度ρi和点i到具有更高局部密度点的最短距离δi,绘制决策图,选取聚类中心;其中,![]()
(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇;(8)输出聚类结果C={C1,C2,…,Ck},k为簇数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610228374.8/,转载请声明来源钻瓜专利网。