[发明专利]一种自动识别肘部法则中最优K值的方法在审

专利信息
申请号: 201711090620.9 申请日: 2017-11-08
公开(公告)号: CN107886124A 公开(公告)日: 2018-04-06
发明(设计)人: 石聪明;王锋;邓辉;戴伟;张晓丽;杨秋萍;卫守林 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动识别 肘部 法则 最优 方法
【说明书】:

技术领域

发明涉及一种自动识别肘部法则中最优K值的方法,特别涉及一种结合利用机器学习中无监督学习中常用的K-Means聚类算法、肘部法则以及通过0-10的规则化对平均畸变程度进行规则化、将0-10规则化后的平均畸变程度与对应的分类簇数量封装成数据对以及利用余弦定理求出连续三个数据点之间的夹角等来自动识别肘部法则中预估出来的最优K值的方法,属于机器学习中无监督聚类学习领域。

背景技术

随着信息技术的发展以及人们产生的数据越来越多,人类逐渐进入了大数据时代。人们通过机器学习来对大数据进行研究,进而从大数据中获取新的知识或技能。尤其是通过机器学习中的无监督学(unsupervised learning)来挖掘或发现大数据中的新知识或技能。

无监督学习与监督学习不同,无监督学习不需要对数据进行标记。无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本,这是海量数据处理中非常实用的技术。数据聚类是无监督学习的主流应用之一。聚类是一个将整体的数据对象划分为以类或簇存在的包含局部数据对象的过程。聚类源于数据挖掘、统计学、生物学、机器学习等众多领域,现如今聚类分析已经广泛应用于模式识别、数据分析以及图像处理等领域。目前的聚类算法可以归纳为如下几类:K均值聚类(K-means Clustering)、高斯混合聚类(Mixture-of-Gaussian Clustering)、密度聚类(Density-Based Clustering)、层次聚类(hierarchicalclustering)等算法,但是最为经典并且易用的聚类模型是K均值(K-means)算法。

但是K-means聚类算法也不可避免地存在缺点:无法事先确定合适的聚类数目,导致聚类质量不高。获取良好聚类效果关键在于确定最佳的聚类数目。当使用该算法时需要我们预先设定聚类的个数,找到或设定聚类的个数往往需要经验或者通过使用肘部方法来找到最佳的聚类个数。然而肘部方法往往需要通过观察法来粗略地预估相对合理的类簇个数,肘部方法需要借助观察法来找出最佳的类簇数量,这就影响了其在自动化系统中的使用以及其的推广使用。

发明内容

本发明要解决的技术问题是提供一种自动识别肘部法则中最优K值的方法,首先通过给K-means指定不同的聚类数计算出样本数据对应的重心,根据重心和肘部法则计算出样本数据的平均畸变程度,进而计算相邻两个平均畸变程度的差值,找出相邻两个平均畸变程度差值中的最大值,并通过最大值对应的下标得到肘部法则为K-means聚类算法找到的最优K值。该方法降低了对人工识别肘部法则中得到最优K值的依赖,同样有利于肘部法则在自动化系统中为聚类提供最优K值的应用和推广。

本发明采用的技术方案是:一种自动识别肘部法则中最优K值的方法,包括如下步骤:

(1)设定K-means聚类算法中要查找最优K值的范围[1,M];

(2)计算设定范围聚类数对应的平均畸变程度;

(3)对计算得到的平均畸变程度进行0-10的规则化转换;

(4)将0-10规则化后的平均畸变程度与范围[1,M]封装成数据对;

(5)利用余弦定理求上述封装成的连续三个数据对之间的夹角;

(6)找出最小的夹角;

(7)利用最小的夹角得到最优的K值。

所述的一种自动识别肘部法则中最优K值的方法的具体步骤如下:

Step1、设定K-means聚类算法中要查找最优K值的范围Range:[1,2,…,M];

Step2、初始化k=1,且生成一个长度为M且所有元素为0的平均畸变程度列表MDL;

Step3、如果k∈Range,执行Step4;如果则跳过Step4-Step7,执行Step8;

Step4、用聚类数k来实例化sklearn.cluster.KMeans得到实例对象kmeans;

Step5、通过实例对象kmeans拟合N个样本数据,并得到对应的k个重心;

Step6、利用K-means算法的优化目标函数、得到的k个重心以及样本数据来求样本数据的平均畸变程度,并将求得的平均畸变程度追加到平均畸变程度列表中;

Step7、k=k+1,重复Step3-Step7;

Step8、初始化j=0,生成一个长度为M且所有元素为0的0-10的规则化平均畸变程度列表RMDL;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711090620.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top