[发明专利]基于质心中间带的K-MEANS聚类方法及系统在审
申请号: | 202010730251.0 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111881975A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 周书田;薛雁;于海洋 | 申请(专利权)人: | 青岛网信信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 青岛发思特专利商标代理有限公司 37212 | 代理人: | 巩同海;江鹏飞 |
地址: | 266000 山东省青岛市崂山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 质心 中间 means 方法 系统 | ||
本发明涉及一种基于质心中间带的K‑MEANS聚类方法及系统,属于数据挖掘聚类分析技术领域。本发明包括如下步骤:S1:质心中间带的提出:质心中间带是指沿质心左右摇摆的地方设置一个中间带,即此中间带与各个质心间的距离差小于设定的阈值,该阈值设定为最小识别阈值Y;S2:最小识别阈值Y的选取;S3:最小距离的两个分类的选取;S4:输出方差的确定值。本发明在质心间的左右摇摆的地方设置一个质心中间带,即此点与各个质心间的距离差小于设定的阈值,在此区域的点进行随机归类。该基于质心中间带的K‑MEANS聚类方法的好处在于能够减少过拟合提高泛化,属于对此算法一种新的K‑MEANS算法改进。
技术领域
本发明涉及一种基于质心中间带的K-MEANS聚类方法及系统,属于数据挖掘聚类分析技术领域。
背景技术
聚类分析是研究分类问题的一种统计分析方法也是数据挖掘的一个重要方法。K-MEANS算法是一种基于划分的聚类算法。目前的K-Means的主要缺点有:1)K值的选取不好把握;2)对于不是凸的数据集比较难收敛;3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳;4)采用迭代方法,得到的结果只是局部最优;5)对噪音和异常点比较的敏感。
发明内容
针对现有技术存在的上述缺陷,本发明提出了一种基于质心中间带的K-MEANS聚类方法及系统。
本发明所述的基于质心中间带的K-MEANS聚类方法及系统,包括如下步骤:
S1:质心中间带的提出:质心中间带是指沿质心左右摇摆的地方设置一个中间带,即此中间带与各个质心间的距离差小于设定的阈值,该阈值设定为最小识别阈值Y;
S2:最小识别阈值Y的选取,包括如下情形:
情况一:凭借对于数据的理解之上而给出固定的经验,即先验经验;
情况二:根据算法迭代次数在一定范围内递增或递减;
情况三:预设偏向某几个分类,即偏好聚类;
S3:最小距离的两个分类的选取,包括如下小步:
S31:输入是样本集D={x1,x2,...xm},聚类的簇树k,最大迭代次数N,输出是簇划分C={C1,C2,...Ck};
S32:从样本集D中随机选择k个样本作为初始的k个质心:{μ1,μ2,...,μk};
S33:将簇划分C初始化为对于i=1,2...m,计算样本xi和各个质心向量μj(j=1,2,...k)的距离:
S34:选取最小距离的两个分类,如果xi与这两个分类的距离差小于最小识别阈值Y,则随机选取其中一个分类,将xi标记为对应的类别λi;
S35:更新Cλi=Cλi∪{xi},对于j=1,2,...,k,对Cj中所有的样本点重新计算新的质心:
如果所有的k个质心向量都没有发生变化,则输出簇划分C={C1,C2,...Ck};
S4:输出方差的确定值,包括如下情况:
情况一:在质心中间带点进行随机归类,随机产生一个随机数作为替代值,确定最小距离两个样本的方差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛网信信息科技有限公司,未经青岛网信信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010730251.0/2.html,转载请声明来源钻瓜专利网。