[发明专利]一种基于相对最离散维分割的K‑means聚类初始中心选取方法在审

专利信息
申请号: 201710844898.4 申请日: 2017-09-19
公开(公告)号: CN107704872A 公开(公告)日: 2018-02-16
发明(设计)人: 吴造林;胡长俊 申请(专利权)人: 安徽理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 232001 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相对 离散 分割 means 初始 中心 选取 方法
【说明书】:

技术领域

发明涉及数据挖掘技术领域,尤其涉及一种基于相对最离散维分割的K-means聚类初始中心选取方法。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

聚类就是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间距离尽可能小,而不同类别个体间的距离尽可能大。每个类别称为簇,簇内对象的相似性较高,而簇间对象的相似性较低。根据这种特点,聚类可分为基于划分,密度,层次和网格的聚类算法等。

K-means是一种基于划分的经典聚类算法,因其简单有效的特点被广泛应用于数据挖掘,机器学习,模式识别等任务上。

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-means基本原理如下:

设待聚类的数据集合:X={xi|xi∈RD,i=1,2,3,…,N};

聚类类别数为K,且K个聚类中心分别为C1,C2,…,CK

从N个数据对象中随机选择K个初始中心;

计算每个对象与簇中心(均值点)对象的距离,并根据最近距离将对象分配给相应的簇;

对象间距离定义为欧氏距离,任意两数据点间(设为xi,xj)欧氏距离为

重新计算各个簇的均值;

重复[0010]~[0012],直到目标函数不再变化为止。

数据集中各对象与该对象所在簇的簇中心的欧氏距离之和称为目标函数,一般用字母J表示;

上述是传统的K-means算法,传统的K-means算法很容易受初始中心点的影响,如果初始中心点选的不好,可能使迭代次数增多导致计算量增大,甚至会使聚类陷入局部最优解,并不能达到想要的效果。

发明内容

本发明实施方法提出一种K-means初始中心点选取方法,可以减少K-means算法的迭代次数。

本发明实施方法提出一种K-means初始中心点选取方法,应用此方法可以使得K-means聚类结果准确率更高,不会陷入局部最优。

传统K-means算法中,初始聚类中心都是随机指定的,这样会使得K-means聚类过程中迭代次数增加,以及陷入局部最优,因此,在本发明中,设计一种初始中心点选取方法如下:

给定一个任意待聚类数据集U(包含N个D维数据点),以及聚类数K;

首先对数据集进行降维得到数据集X(包含N个d维数据点,d<=D),因为在原始数据集中,可能存在线性相关的维,通过将线性相关的维变换为线性无关的的表示,从而提取数据的主要特征分量。

在数据集Y中评估每一维的离散程度,也即计算每一维数据的方差,设xij表示第第i个数据的第j维的值,并定义Xj表示第j维的所有数据的值;

计算离散程度方法如下:

上述公式中var()表示求方差,对Y中的每一维数据求方差后,取方差值最大的那一维作为最离散维。

记最离散维数据为S(S为N×1的向量)。

计算向量S的均值Ms=mean(S)。

将S中大于Ms的值所对应的数据点划分到第一个box,S中小于Ms的值对应的数据点划分到第二个box中。

计算每个box中的数据点个数,并选择包含最多数据点的box作为下一次待操作的数据集,记为box_max。

根据[0020]-[0026],将box_max继续划分为两个box,并重复上述步骤,直到box的数量与聚类数K一致为止。

计算每个box中数据的均值Mb=[Mb1,Mb2,...,MbK]T,Mb为K×d的矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710844898.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top