[发明专利]基于遗传MinmaxK均值的可变长编码聚类方法在审
申请号: | 201910824782.3 | 申请日: | 2019-09-02 |
公开(公告)号: | CN112446400A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 蒋海峰;张曼;王冰冰;王宝华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12;H03M7/40 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 minmaxk 均值 可变 编码 方法 | ||
1.一种基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,包括以下步骤:
步骤1、初始化参数,随机生成聚类数和聚类中心,将聚类中心编码成染色体,产生第一代种群;
步骤2、对当前种群的每个个体,用MinmaxK-means聚类方法将其优化为以该个体为初始值的K均值问题的局部最优解;
步骤3、对局部最优个体进行选择、交叉、变异操作;
步骤4、对每个个体进行重复基因删除;
步骤5、判断循环是否达到最大迭代数或满足精度要求,若否,返回步骤2;若是,则对每个个体计算显著性水平,选择最优个体。
2.根据权利要求1所述的基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,所述步骤1中,随机生成聚类数N为样本数,为聚类数的经验值,将各类聚类中心编码成染色体。
3.根据权利要求1所述的基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,所述步骤2中,MinmaxK-means聚类建立各簇之间簇内方差值关系的聚类目标函数;将数据集xi∈Rd无监督的划分到M个互无交际的簇中,MinamaxK均值方法通过最小化K个簇中的最大簇内方差值进行聚类,其目标函数为:
式中,mk为聚类中心,
vk为簇内方差,
将式(1)松弛为式(2),
wk为各个簇的簇内方差权重,初始权重为wk=1/M,k=1,2,…,M;p为wk的指数;
在权重中设置一个记忆效应:
式中,β为记忆效应系数;
将样本划分到距离其最近的簇,并更新聚类中心,直到达到最迭代次数或满足精度要求。
4.根据权利要求1所述的基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,所述步骤3中对局部最优个体进行选择、交叉、变异操作,包括以下步骤:
4.1选择算子
计算每个个体的适应度函数,根据轮盘赌规则选择相应的个体数,并将适应度最高的个体保留,以保证下代种群的最优解至少不会比上代差:
fi=1/(1+εi),i=1,2,…,n
式中,fi为每个个体的适应度函数;εi为每个个体的簇内方差值,计算公式为式(2),n为个体数目;
4.2交叉操作
采用一点交叉,随机选取两个个体上的点,将两个个体间插入点后的部分进行互换;
4.3变异操作
对每个变异点,从属于这个基因的样本中取随机数代替原有基因值,变异概率也采用自适应调整;
mk=xmin+rand*(xmax-xmin)
式中:mk为选取的变异点,xmin为该基因位的数值下限,xmax为该基因位的数值上限,rand为产生的随机数。
5.根据权利要求1所述的基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,所述步骤4中,对每个个体进行重复基因删除即判断同一染色体中两基因的距离,若距离小于事先设定的最小距离,则判定两基因相似,删去其中一个基因。
6.根据权利要求1所述的基于遗传MinmaxK均值的可变长编码聚类方法,其特征在于,所述步骤5中,对每个个体计算显著性水平:
式中:dmin为各不同类别间距离最小值,dmin=min{d1,d2,…,dl};εmax为同一类别间各样本点的标准差最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910824782.3/1.html,转载请声明来源钻瓜专利网。