[发明专利]基于材力形心法选取中心点的K‑means聚类优化方法和装置在审
申请号: | 201710214139.X | 申请日: | 2017-04-01 |
公开(公告)号: | CN106951927A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 邓华夏;刁逸帆;马孟超;张进;钟翔 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/50 |
代理公司: | 合肥金安专利事务所34114 | 代理人: | 彭超 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 材力形 心法 选取 中心点 means 优化 方法 装置 | ||
技术领域
本发明涉及数据挖掘和材料力学领域,主要涉及一种基于材力形心法选取中心点的K-means聚类优化方法和装置。
背景技术
随着工业设备自动化水平的不断提高,设备故障诊断技术在各个工业领域都受到了普遍重视。目前,以转子为核心工作部件的回转设备(如压缩机,透平机等)的故障诊断技术已基本成熟,而对于一些复杂设备(如发动机,复式压缩机等)的故障诊断技术仍然是一个难题。由于传统的故障诊断方法的复杂性,自上世纪90年代数据挖掘这一概念提出之后,就开始被广泛应用在故障诊断技术中。聚类就是一种典型的用来进行数据挖掘的方法。
聚类是一个把数据对象集划分为若干个簇的过程,簇内的对象有很高的相似度,而簇间对象又很不相似,与分类过程不同,聚类是一种无监督学习。
聚类方法中最经典,应用最广泛的是K-means(K-均值)方法。K-means是一种基于中心点使用距离度量的方法,它把簇的中心点定义为簇内点的均值。K-means方法的处理流程如下:首先在数据集D中随机选择k个对象,即将数据集D划分为k个簇,每个对象对应一个簇的初始中心点即均值。对剩下的对象,根据其与每个簇中心点的欧式距离将它分配到距离最近的簇,这里的距离也可称为相似度。然后迭代分配到该簇的对象,计算新的均值使用更新后的均值作为新的簇的中心,继续分配对象,直到稳定。
K-means方法的优点在于它是一个快速简单的方法,比较容易解释,对大数据集的聚类效率比较高且可伸缩,当聚类的簇是密集的且类与类之间区别比较明显的时候效果比较好。
当然,K-means方法也有很多缺陷:(1)K值比较难确定(这一点与KNN方法相同);(2)初始聚类中心点的选择对聚类结果的影响较大;(3)数据量的增加会导致计算量的增加,进而会导致聚类时间增长;(4)K-means方法对离群点比较敏感,对噪点和孤立点尤为明显。
针对上述缺陷(1),目前一般采取随机选择K值或使用轮廓系数法确定。针对缺陷(4),K-中心点方法能有效解决。针对缺陷(2),目前有采用Minkowski Distance公式即闵式距离选取初始中心点,公式表达式如下:
该公式以星形方式逼近中心。特别的,当λ=2时,(6)式即为Euclidean Distance公式,以圆形方式逼近中心,当λ=1时,(6)式即为Cityblock Distance公式,以菱形方式逼近中心。这种逼近中心的方法均采用规则图形,对一些分布不规则的数据集,误差依旧比较大。针对缺陷(2),也有使用K-means++方法和层次聚类方法或Canopy进行初始聚类,但他们的计算复杂度相对较高,例如对统一数据集,Canopy方法的聚类建模时间为0.02s,而K-means方法的建模时间为0.01s。且层次聚类可能聚类成链状。综上,目前确定初始中心点的方法不少,但各有优缺点,真正行之有效的方法并不多。
发明内容
本发明的目的是改善K-means方法选取初始聚类中心点的准确性和聚类效率,使其在应用于故障诊断时能有效提高诊断效率和准确率。传统的选取中心点的方法在用闵式距离进行初始中心点选取时均以规则图形逼近中心,而本优化方法基于材料力学中静矩和形心的概念提出一种新的有效的中心点的选择方法,该方法对抽象的不规则图形有较好的普遍适用性,而在材力概念中,形心对应的平面要求厚度尽可能小,对二维数据集尤为适用。而且本方法计算公式如公式(2)、(3)、(4)、(5)所示,简单易实现,计算复杂度不高,很容易在matlab或weka中操作。
本发明是通过以下技术方案实现的:
本发明提供一种基于材力形心法选取中心点的K-means聚类优化方法,在选取初始聚类中心点时,使用静矩及形心的思想选取出每个簇的形心作为中心点。具体包括如下步骤:
预处理步骤:对数据进行预处理,输入二维数据集。
初始中心点获取步骤:确定K值,随机选取K个初始中心点。
初始簇平面形成步骤:
步骤S31,将数据集中的点分配到离初始中心点距离最近的簇内;
重复步骤S31一次,数据集中形成K个簇平面。
聚类步骤:
步骤S41,基于静矩计算K个簇平面的形心,将所计算K个簇平面的形心作为每个簇新的聚类中心点,并根据数据集中剩余对象与新的聚类中心点的距离,将其分配到最近的一个簇;
重复步骤S41进行簇中心点坐标的迭代,当簇中心点的坐标趋于稳定时,停止迭代,将结果簇进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710214139.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空气滤芯清洗器
- 下一篇:一种太阳能和市电互补LED路灯控制系统