[发明专利]一种决策值选取初始聚类中心改进的K-means算法在审
| 申请号: | 202110076198.1 | 申请日: | 2021-01-20 |
| 公开(公告)号: | CN113344019A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 彭显 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 昆明金科智诚知识产权代理事务所(普通合伙) 53216 | 代理人: | 杨钊霞 |
| 地址: | 650504 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 决策 选取 初始 中心 改进 means 算法 | ||
1.一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:包括以下步骤:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ1,μ2…,μk};
Step4.根据距离最近原则确定样本点xj(1≤j≤n)所属簇标记:将样本点xj划入相对应的簇:
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μ′i;如果μ′i≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]:
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
其中,m表示数据集指定的聚类类别数,表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,表示聚类结果簇i中数据点的个数,表示真实标签类j中数据点的个数,NMI取值范围为[0,1],主要用来衡量各样本分布的吻合程度。
2.根据权利要求1所述的一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1)为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
对于局部密度最大的点,CFSFDP算法认为该点必为聚类中心点,因此取
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110076198.1/1.html,转载请声明来源钻瓜专利网。





