[发明专利]基于遗传MinmaxK均值的可变长编码聚类方法在审
申请号: | 201910824782.3 | 申请日: | 2019-09-02 |
公开(公告)号: | CN112446400A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 蒋海峰;张曼;王冰冰;王宝华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12;H03M7/40 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 minmaxk 均值 可变 编码 方法 | ||
本发明公开了一种可变长编码的基于遗传MinmaxK均值的聚类方法,包括:初始化参数,随机生成聚类数和聚类中心,将聚类中心编码成染色体,产生第一代种群;对当前种群的每个个体,用MinmaxK‑means聚类方法将其优化为以该个体为初始值的K均值问题的局部最优解;对局部最有个体进行选择、交叉、变异操作;对每个个体进行重复基因删除;判断循环是否达到最大迭代数或满足精度要求,若是,则对每个个体计算显著性水平。本发明结合遗传算法和Minmax K均值聚类算法,使聚类结果不受初始值影响;不需要事先给出确定的聚类数,在聚类过程中根据各聚类中心间的距离调整聚类数,最后基于显著性水平选取最优聚类数。
技术领域
本发明涉及K均值聚类技术领域,具体涉及一种基于遗传MinmaxK均值的 可变长编码聚类方法。
背景技术
聚类称为无监督学习,试图发现无标号数据集种内在的分布结构。聚类分析 应用广泛,已经成为数据挖掘主要的研究领域。
目前应用最为广泛的聚类方法是K-means聚类,根据聚类数目随机初始化 聚类中心,通过迭代更新聚类中心,使各样本到聚类中心的误差和最小。K-means 聚类受初始值影响很大,并且聚类数需要事先给出。因此,需要一种能自动更新 聚类数,并通过优化K-means目标,使最终聚类结果受初始值影响较小。
发明内容
本发明的目的在于提供一种基于遗传MinmaxK均值的可变长编码聚类方法, 解决现有基于K-means聚类对初始值敏感和聚类数不确定等问题,在聚类过程 中,根据各聚类中心之间的距离删去重复的聚类中心,以寻找最佳聚类数。
实现本发明目的的技术解决方案为:一种基于遗传MinmaxK均值的可变长 编码聚类方法,包括以下步骤:
步骤1、初始化参数,随机生成聚类数和聚类中心,将聚类中心编码成染色 体,产生第一代种群;
步骤2、对当前种群的每个个体,用MinmaxK-means聚类方法将其优化为 以该个体为初始值的K均值问题的局部最优解;
步骤3、对局部最优个体进行选择、交叉、变异操作;
步骤4、对每个个体进行重复基因删除;
步骤5、判断循环是否达到最大迭代数或满足精度要求,若否,返回步骤2; 若是,则对每个个体计算显著性水平,选择最优个体。
与现有技术相比,本发明的显著优点为:(1)本发明结合遗传算法和Minmax K均值聚类算法,使聚类结果不受初始值影响;(2)本发明不需要事先给出确定 的聚类数,在聚类过程中根据各聚类中心间的距离调整聚类数,最后基于显著性 水平选取最优聚类数。
附图说明
图1是本发明基于遗传MinmaxK-means的可变长编码聚类方法流程图。
图2是当聚类为4时,Iris数据的染色体编码示意图。
图3是MinmaxK均值聚类算法的流程图。
图4是删除重复基因操作示意图。
图5是基于遗传MinmaxK-means对Iris数据集的最终分类结果图。
图6是Iris数据集实际分类示意图。
具体实施方式
如图1所示,一种基于遗传MinmaxK均值的可变长编码聚类方法,包括以 下步骤:
步骤1、初始化参数,随机生成聚类数和聚类中心,将聚类中心编码成染色 体,共产生n个初始染色体,产生第一代种群;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910824782.3/2.html,转载请声明来源钻瓜专利网。