[发明专利]一种基于LE算法的工业监测数据聚类方法在审
| 申请号: | 201811097330.1 | 申请日: | 2018-09-19 |
| 公开(公告)号: | CN109409407A | 公开(公告)日: | 2019-03-01 |
| 发明(设计)人: | 谢国;张永艳;刘涵;王文卿;梁莉莉;张春丽;孙澜澜 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
| 地址: | 710048*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 数据聚类 算法 采样数据 工业监测 低维 建模 降维 预处理 输出 工业系统 监测数据 密度聚类 多变量 计算量 聚类簇 映射 高维 集合 采集 压缩 保证 发现 | ||
本发明公开了一种基于LE算法的工业监测数据聚类方法,包括如下步骤:步骤1、对工业系统的监测数据进行采集,并进行预处理;步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据;步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类;步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。该方法首先对多变量数据进行降维,再对降维后数据进行聚类,同时又可以保证计算量,提高了数据聚类的效率;该方法可对高维的采样数据进行一个压缩,并根据数据的内在特征对数据本身进行聚类,便于发现数据的规律。
技术领域
本发明属于工业监测数据聚类的技术领域,具体涉及一种基于LE算法的工业监测数据聚类方法。
背景技术
在信息发展如此迅速的时代,随之产生的数据在快速增长,所以如何从大量增长的数据中挖掘有效信息并进行利用,是机器学习的一个重要研究课题。现实中数据根据是否有标签信息分为有标签数据和无标签数据,当数据的标签信息未知即为无标签数据时,通过肉眼无法对高维数据进行聚类,但是通过常见的聚类算法可以对这些无标签数据进行学习并获取数据的内在信息。如果数据量大,将会给数据分析带来困难。而数据通常包括其行数和列数,分别表示数据的采样个数和变量个数。采样数据的个数与采样时间息息相关,但为保证在提取过程中数据信息的准确性,其采样个数应该予以保证。所以面对数据变量个数也即数据维数大的情况,如果可以对数据的变量其进行压缩,将给后续的数据聚类带来很大的便利。
发明内容
基于以上本发明提出一种基于LE(Laplacian Eigenmaps)算法的工业监测数据聚类方法。该方法首先对多变量数据进行降维,再对降维后数据进行聚类,同时又可以保证计算量,提高了数据聚类的效率,是一种用来有效分析数据内在特点、寻找规律的方法。该方法可对高维的采样数据进行一个压缩,并根据数据的内在特征对数据本身进行聚类,便于发现数据的规律。
本发明采用以下技术方案:
一种基于LE算法的工业监测数据聚类方法,包括如下步骤:
步骤1、对工业系统的监测数据进行采集,并进行预处理;
步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据;
步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类;
步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。
作为本发明进一步的方案,所述步骤1具体包括如下步骤:
步骤1.1、先对工业系统进行采样,并用X={x1,x2,…,xN}∈Rd×N表示,其中d表示数据的变量个数,N表示采样数目,其中第t个采样数据用xt表示,且t=1,2,...,N,xt=[xt1xt2…xtd]T;
步骤1.2、对采样数据X进行检查,如果在X中某个数据xtj出现丢失现象,假设其中xtj为第t个采样数据的第j个变量丢失,则利用公式进行补充,j=1,2,…,d。
作为本发明进一步的方案,所述步骤2具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811097330.1/2.html,转载请声明来源钻瓜专利网。





