[发明专利]基于质心中间带的K-MEANS聚类方法及系统在审
申请号: | 202010730251.0 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111881975A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 周书田;薛雁;于海洋 | 申请(专利权)人: | 青岛网信信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 青岛发思特专利商标代理有限公司 37212 | 代理人: | 巩同海;江鹏飞 |
地址: | 266000 山东省青岛市崂山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 质心 中间 means 方法 系统 | ||
1.一种基于质心中间带的K-MEANS聚类方法及系统,其特征在于,包括如下步骤:
S1:质心中间带的提出:质心中间带是指沿质心左右摇摆的地方设置一个中间带,即此中间带与各个质心间的距离差小于设定的阈值,该阈值设定为最小识别阈值Y;
S2:最小识别阈值Y的选取,包括如下情形:
情况一:凭借对于数据的理解之上而给出固定的经验,即先验经验;
情况二:根据算法迭代次数在一定范围内递增或递减;
情况三:预设偏向某几个分类,即偏好聚类;
S3:最小距离的两个分类的选取,包括如下小步:
S31:输入是样本集D={x1,x2,...xm},聚类的簇树k,最大迭代次数N,输出是簇划分C={C1,C2,...Ck};
S32:从样本集D中随机选择k个样本作为初始的k个质心:{μ1,μ2,...,μk};
S33:将簇划分C初始化为对于i=1,2...m,计算样本xi和各个质心向量μj(j=1,2,...k)的距离:
S34:选取最小距离的两个分类,如果xi与这两个分类的距离差小于最小识别阈值Y,则随机选取其中一个分类,将xi标记为对应的类别λi;
S35:更新Cλi=Cλi∪{xi},对于j=1,2,...,k,对Cj中所有的样本点重新计算新的质心:
如果所有的k个质心向量都没有发生变化,则输出簇划分C={C1,C2,...Ck};
S4:输出方差的确定值,包括如下情况:
情况一:在质心中间带点进行随机归类,随机产生一个随机数作为替代值,确定最小距离两个样本的方差;
情况二:当样本与两个质心距离差过小时,不选取精确计算的值来标记,而是模拟在此情境下人类的直觉行为。
2.根据权利要求1所述的基于质心中间带的K-MEANS聚类方法及系统,其特征在于,所述步骤S32中,k值的选择根据对数据的先验经验选择一个合适的k值,或者通过交叉验证选择一个合适的k值。
3.根据权利要求1所述的基于质心中间带的K-MEANS聚类方法及系统,其特征在于,所述k个初始化的质心的位置选择对最后的聚类结果和运行时间都产生影响,因此需要选择合适的k个质心不能太近。
4.一种基于质心中间带的K-MEANS聚类系统,其特征在于,包括如下模块:
主控制模块,用于实现如权利要求1至3所述的基于质心中间带的K-MEANS聚类方法及系统的主控制模块;
存储控制模块,用于控制数据的传输和存储;
以及通过K-MEANS算法计算初始化质心、最小识别阈值初始化模块;
计算样本点到各质心的距离、最小识别阈值运算模块;
通过对最小距离的两个分类比较、更新质心的质心更新模块;
计算更新前后质心间距离、最小距离的两个分类比较、质心中间带输出方差确定模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛网信信息科技有限公司,未经青岛网信信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010730251.0/1.html,转载请声明来源钻瓜专利网。