[发明专利]一种优化聚类中心的k-means算法在审
| 申请号: | 202110669183.6 | 申请日: | 2021-06-16 |
| 公开(公告)号: | CN113361616A | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 沈学利;陈治琦 | 申请(专利权)人: | 辽宁工程技术大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
| 地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 优化 中心 means 算法 | ||
本发明公开了一种优化聚类中心的k‑means算法,包括:求出样本数据集的样本均值C和平均距离ad;根据空间两点间的距离公式计算出所有数据对象与C的距离;通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点;计算所有样本集数据对象与方向位置点O1的距离;重复上述过程,直到找到K个初始聚类中心为止。本发明提出的初始聚类中心优化的K‑Means改进算法,降低了聚类结果对初始聚类中心的依赖性,提高了聚类的精度、收敛速度以及稳定性,并且也摆脱了容易受孤立点的影响。
技术领域
本发明属于图像处理和数据挖掘的技术领域,尤其涉及一种优化聚类中心的k-means算法。
背景技术
近几年时间,大数据时代的到来促使机器学习技术飞速发展。聚类分析作为传统机器学习算法中常用方法之一,由于其实用、简单和高效的特性而广受青睐,它已成功应用于许多领域,聚类也是数据挖掘中一个重要的概念,其核心是寻找数据对象中隐藏的有价值的信息。
K-Means算法作为聚类算法中最流行的算法,相较于其他的聚类算法,K-Means算法以效果较好、思想简单的优点在聚类算法中得到了广泛的应用。但是,K-Means算法也有其自身的局限性,比如算法中聚簇个数k需要事先确定,初始聚类中心由随机选取产生,离群点对聚类结果的影响等。针对上述的缺点,各个领域的学者提出了不同的改进算法。
现有技术以样本的方差作为选取K-means初始聚类中心的启发信息,以样本间的平均距离为半径,选择K个位于不同区域且在该区域方差最小的样本作为初始聚类中心,不需要其他参数选择,提出基于样本分布紧密度的最小方差优化初始聚类中心的Kmeans聚类算法。方差是数据集中各数据与其平均数之差的平方和的期望,样本方差的算术平方根为样本标准差样本方差与样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。方差和标准差是测算样本离散趋势最重要和最常用的指标。方差是测算数值型数据离散程度的最重要方法。K-means算法的初始聚类中心如果选择到每一个类簇的中心,其方差将最小。但这种方式所完成的聚类精度较传统K-Mean聚类算法没有明显的提高,聚类结果对初始聚类中心的依赖性高,收敛速度以及稳定性不强。
发明内容
针对传统的K-Means算法对初始聚类中心敏感而导致的聚类精度低、稳定性差等问题,本发明提出一种优化聚类中心的k-means算法,降低了聚类结果对初始聚类中心的依赖性,提高了聚类的精度、收敛速度以及稳定性,并且也摆脱了容易受孤立点的影响。
为了解决上述技术问题,本发明提供一种优化聚类中心的k-means算法,包括以下步骤:
步骤1、求出样本数据集X={X1,X2,...,Xn}的样本均值C和平均距离ad;
步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(Xi,C)≥d(Xj,C),(i,j=1,2,...,n)的数据对象Xi,找到该方向位置点并记作O1;
步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110669183.6/2.html,转载请声明来源钻瓜专利网。





