[发明专利]一种基于复杂网络社区发现的工业数据样本筛选方法在审

申请号：	201510001770.2	申请日：	2015-01-04
公开（公告）号：	CN104572985A	公开（公告）日：	2015-04-29
发明（设计）人：	刘颖;赵珺;吕政;盛春阳;王霖青;王伟	申请（专利权）人：	大连理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于复杂网络社区发现工业数据样本筛选方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息技术领域，涉及到数据的复杂网络构建、社区发现、分层聚类、社区融合等理论，是一种基于复杂网络社区发现的工业数据样本筛选方法。本发明利用工业现场已有的大量历史数据，首先将待筛选的目标数据构造初始样本作为复杂网络节点，计算复杂网络节点间距离，与截断阈值进行比较得到表示节点连接关系的邻接矩阵，然后以模块度最大化为优化目标，在邻接矩阵所表示的复杂网络中进行社区发现，获得对应问题不同情况下的样本社区划分，最后提出网络节点“结合度”的评价指标，对社区内节点按照结合度值降序排序，从每个社区中按照结合度大小平均选取样本重新构造样本集，从而实现对数据样本集的约减。采用筛选后的样本数据进行预测建模、软测量、案例推理等，可进一步提高模型精度。

背景技术

工业大数据时代到来，越来越多的数据被收集存储到数据库中，数据逐步成为了解决很多工业问题的关键。基于数据的软测量、预测建模、优化调度等方法被广泛应用与各个领域。基于数据的建模方法中样本选取的好坏对模型精度影响很大，样本数据的选取应该具有代表性，数据选取的范围应该覆盖各典型生产工况，若选取一段时间连续数据构造样本库，则难以覆盖各个种类的实际情况，所建模型的泛化能力普遍较差。若为覆盖各个种类的实际情况而选取海量数据作为训练样本集，其计算过程的时间复杂度和空间复杂度将大大提高。此外，在生产现场通讯故障、检测异常等事故时有发生，造成采集到的工业数据中可能存在异常点数据，若将此类异常数据点加入到所建模型的样本库中，则会降低模型的精度。因此，工业现场急需一种对样本数据进行合理筛选的方法。

常见的样本筛选法包括K均值聚类法和Renyi熵评价法。K均值聚类法主要是针对训练样本进行聚类，从各类中选择典型样本，将典型样本构成的样本集作为新的训练样本，但K均值聚类需要确定原始的聚类个数和聚类中心，不同的初始值对聚类结果影响较大(A.V.Perevoznikov,A.M.Shestov,E.A.Permyakov,M.I.Kumskov,A way to increase the prediction quality for the large set of molecular graphs by using the k-NN classifier,Pattern Recognition and Image Analysis 21(3)(2011)545-548)。Renyi熵评价法筛选样本主要是保证样本集的稀疏性和典型性，如对电力负荷预测样本数据的筛选(M.Espinoza,A.K.Suykens,B.D.Moor,A large scale application in electrical load forecasting,Computational Management Science 3(2)(2006)113-129)，但该方法的分布密度函数定义复杂,求解难度大。

发明内容

本发明要解决的技术问题是工业数据样本筛选问题。为解决上述这一问题，对某工业现场提供的数据进行分析，首先对待筛选的目标数据构造初始样本作为复杂网络节点，计算样本间距离，与截断阈值进行比较得到表示节点连接关系的邻接矩阵，然后通过以模块度最大化为优化目标，在邻接矩阵所表示的复杂网络中进行社区发现，获得对应问题不同情况下的样本社区划分，最后提出网络节点“结合度”的评价指标，对社区内节点按照结合度值降序排序列，从每个社区中选取结合度较大的样本重新构造样本集。利用该发明可以对不同的工业建模数据进行有效筛选，可在保留原有样本集中有用信息的情况下，实现对数据样本集的约减，采用筛选后的数据样本进行软测量、预测、案例推理可进一步提高所建模型的精度，为实施工业过程基于数据的优化调度提供保障。

本发明技术方案的整体实现流程如附图1所示，具体步骤如下：

1.复杂网络构建：从现场实时数据库中读取工业数据，构造初始样本，作为复杂网络中的节点；

2.计算欧式距离矩阵：利用欧式距离公式计算任意两样本间的欧式距离，得到距离矩阵；

3.生成邻接矩阵：选取阈值，将欧式距离矩阵与阈值比较，得到表示节点连接关系的邻接矩阵

4.社区发现：计算网络模块度，对邻接矩阵所表示的复杂网络进行社区发现；

5.舍弃小社区：选取异常样本点节点数量判断阈值，将社区发现结果中的小社区进行舍弃；

6.进行样本数据筛选：计算样本节点的结合度，对社区内节点按照结合度值降序排列，从每个社区中选取结合度较大的样本重新构造样本集。

本发明的效果和益处是：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510001770.2/2.html，转载请声明来源钻瓜专利网。