[发明专利]一种基于互信息的多元时间序列变量选择方法在审
申请号: | 201910546886.2 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110427964A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 何国良;韦庆锋;汪紫煌 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间序列 变量选择 互信息 变量子集 可分离性 冗余变量 分类 时间序列数据 输入变量 降维 散度 剔除 排序 验证 衡量 | ||
本发明公开了一种基于互信息的多元时间序列变量选择方法,首先,根据多元时间序列中每个变量对类可分离性所做贡献的大小,提出了一种基于类内类间散度的衡量标准,结合标准对变量按类可分离性进行排序;再根据输入变量之间互信息值的大小将冗余变量剔除,最终选择出最佳的变量子集;在选出的变量子集的基础上再分类,并通过常用的多元时间序列数据集实验,充分验证了本发明方法的有效性。本发明的变量选择方法不仅能选择出那些对分类最有利的“核心变量”,还可以避免选择冗余变量,从而对多元时间序列进行降维,更好地进行后续分类任务。
技术领域
本发明涉及时间序列的数据挖掘技术领域,具体涉及一种基于互信息的多元时间序列变量选择方法。
背景技术
多元时间序列MTS(Multivariate Time Series)是现实世界中一种普遍存在且具有重要意义的数据类型,比如工业现场的监控数据、互联网节点的通信流量数据、气象数据以及语音视频数据等。采用多元时间序列对事物的特性和行为进行完整描述,并且对该序列进行分析与研究,可以深入的认识事物和发现其内在的规律。目前,多元时间序列及其数据挖掘已经广泛的受到关注。
然而,多元时间序列由于其自身的时间特性、高维特性及变量之间的相关性给挖掘研究带来了困难。数据中本身存在着无关和冗余变量,如果简单的将原有数据变量作为模型的输入,不但会增加训练时间,而且还可能会对模型的预测效果造成负面的影响。因此,对多元时间序列进行降维处理有着十分重要的作用。目前存在的降维研究,大多数集中在单变量时间序列或者高维数据领域,而对既具有时间特性又具有高维特性的多元时间序列的降维研究还较少。有些学者对按时间顺序排列的高维数据进行了降维研究,在文献中把这种数据也称之为“多元时间序列”,虽然考虑了时间特性,但是其本质上还是高维数据的扩展。本发明讨论的问题要更为复杂一些,每个样本以矩阵的形式表示,并对应一个类标号。
现有技术中,国内外学者对多元时间序列变量选择的相关研究如下:
Guyon等人提出了一种利用支持向量机的递归式特征消除RFE(RecursiveFeature Elimination)技术,尽管该技术的实现效果较好,但是因为它要求每个样本以向量的形式表示,而不能直接应用于解决多元时间序列问题。Shahabi等人提出了一种基于RFE的监督变量选择方法Corona(Correlationas Features),该方法使用SVM(SupportVector Machine)对每个样本的相关系数矩阵进行处理,并将得到的分类超平面系数作为评价变量优劣的准则。之后他们又提出了一种基于共同主成分的方法CleVer(Commonprincipal component Loading-based Variable subset selection method),其通过计算整个数据集的共同主成分来对变量进行选择。
Han等人提出了一种基于类可分离性的变量选择算法CSFS(Class SeparabilityFeature Selection),主要依靠计算类离散矩阵对变量排序,此算法能够排除冗余变量,取得了较好的实验效果。李海林提出的利用主成分分析方法,对综合协方差矩阵进行主元分析,进而实现数据降维处理。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
根据采取技术的不同,一般降维分为特征提取和特征选择(也称为变量选择)。由于特征提取得到的新变量是原有变量的组合,会丧失原有系统的物理特性,如PCA(Principal Component Analysis)方法,而且对新的数据还要采取相同的计算,并不能减少实际使用时的工作量。
由此可知,现有技术中的方法对时间序列的降维效果不好,影响分类性能的问题。
发明内容
有鉴于此,本发明提供了一种基于互信息的多元时间序列变量选择方法,用以解决或者至少部分解决现有技术中的方法对时间序列的降维效果不好,影响分类性能的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910546886.2/2.html,转载请声明来源钻瓜专利网。