[发明专利]一种基于概率分布的数据关联方法无效
| 申请号: | 201210205098.5 | 申请日: | 2012-06-20 |
| 公开(公告)号: | CN102750373A | 公开(公告)日: | 2012-10-24 |
| 发明(设计)人: | 段起阳 | 申请(专利权)人: | 段起阳 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510310 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 概率 分布 数据 关联 方法 | ||
技术领域
本专利涉及数据分析方法,尤其是计算机实现的流数据分析和关联方法以及数据关联分析系统。
背景技术
现在很多系统都可以生成流数据,典型的比如计算机系统的性能监测数据,不同地区的天气数据,金融数据(包括股票、债券、石油价格)等等。这些数据的共同特点是每个时间点都会生成一个新的数据,生成频率非常高,从而导致无法长时间的存储数据并分析。在每个时间点上的数据我们称之为一个数据点。
如何能快速的发现这些数据之间关联性是一个值得研究的问题。比如,在金融数据中,如果存在几个金融数据,比如石油价格为A,汇率价格为B,当我们观察股票C的涨跌情况的时候,我们希望能知道股票A的涨跌与石油价格A和汇率价格B之间是否存在关联。或者说,当前股票C的价格变动,是不是由于A或者B的价格变动引起的,或者是别的因素。这个方法也同样适用于多个股票之间的关系的分析。
复杂的系统,比如卫星系统、计算机网络系统或者一个数据库系统,一般都是由很多的部件构成的。比如数据库系统中存在内存缓存,硬盘(或者外部存储),CPU等的部件。针对每个部件,监控装置可以监控他们的运行状态,并记录下来。每个部件记录下来的数据就成为一个流数据。同时,我们针对整个的系统可能有其他的监控指标,比如系统的吞吐量,响应时间等。当我们在系统的响应时间上发现异常(比如特别慢)的时候,我们希望能自动分析内部每个部件的监测数据,并能够定位到哪个部件的状态数据与这个状态特别相关。这样,我们就可以很容易的发现系统问题出在什么地方。
目前已经有一些方法通过计算流数据之间的相关系数来实现。典型的有Pearson相关系数,余弦(Cosine)相关性等。另外,还可以在计算相关性之前进行多种变换,比如傅里叶(Fourier)变换,小波(Haar Wavelet)变换等。这些方法的共同点是他们计算的都是全局的相关性,比如可以计算两个股票之间在全局的相关性,或者两个部件的监测数据的全局相关性。
另外,有些方法也可以在局部区域计算相关性。比如可以把一段时间(或称之为滑动窗口)的数据内部计算相关性。另外,还可以做特征值分解(SVD)变换后计算滑动窗口内的相关性。这种方法的问题是只能考虑当前窗口的变换,而不能利用历史的信息。
高斯混合模型(Gaussian Mixture Model,记为GMM)是利用多个高斯分布(Gaussian Distribution,记为G)来拟合现实数据的一个模型。每个高斯分布按照附图1的公式定义。 [0008] 多个高斯分布线性可以按照附图2的公式组合就构成了一个高斯混合模型GMM(x)。得到一个分布模型后(比如GMM(x)),如果有一个新的数据点x,可以输入到函数中,得到这个数据点的分布概率P(x)。
最大似然方法(Expectation Maximization,简称EM)方法是根据数据通过不断的迭代拟合一个分布模型的方法。这个方法里面的每个迭代包括计算似然(E)和最大化似然(M)两个步骤。 在E步骤里面,根据固定的分布参数来调整每个数据点属于不同的分布模型的概率,在M步骤里面,把每个数据点属于不同的分布固定,然后最大化每个分布模型的参数。最大似然方法可以用来拟合各种分布模型,其中包括高斯混合模型。
在前面提到的技术的基础上,本专利中提出了一种分析框架,这个分析框架根据历史的流数据训练一个分布模型,然后利用分布模型针对当前的流数据计算不同流数据直接相关性的方法。同时,本专利提出了利用高斯混合模型实现这种框架的方法和系统。
发明内容
本专利是一个可以根据历史的流数据训练一个分布模型,然后利用分布模型针对当前的流数据计算不同流数据之间相关度的方法。
如何训练分布模型
本方法的模型训练的输入是多个数据流的历史数据,假定有N个数据点,每个数据点上每个数据流有一个数据。根据用户对于这些数据流的业务理解,这些数据流可以分成两类:源数据流X和目标数据流Y。其中目标数据流Y一般是能够描述整个系统的指标,而源数据流则一般可以描述系统中的子系统的状态。我们希望能够针对子系统的状态和整个系统的状态之间的复杂关系建立一个模型。在特殊的情况下,如果需要,用户可以把所有的数据流都作为目标数据流,同时把所有的数据流都作为源数据流。
首先声明本专利中用到的一些符号:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于段起阳,未经段起阳许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210205098.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:重型电缆成缆、绞线、装凯机通用底盘
- 下一篇:无线鼠标
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





