[发明专利]用于对压缩的数据矢量进行数据挖掘的方法和设备有效
申请号: | 201380021614.1 | 申请日: | 2013-04-24 |
公开(公告)号: | CN104335176B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | N·弗雷里斯;F·福斯科;M·威拉乔斯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F9/45 | 分类号: | G06F9/45 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,陈颖 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 压缩 数据 矢量 进行 挖掘 方法 设备 | ||
技术领域
本发明涉及一种用于利用可表达为欧几里得距离的函数的某个度量对压缩的数据矢量进行数据挖掘的方法和设备。
背景技术
在数据分析中的常有问题是增加的数据集大小。这一趋势规定不仅需要更高效压缩方案而且需要对压缩的数据直接工作的分析操作。可以基于利用在数据中的固有模式和结构来设计高效压缩方案。数据周期是可以显著地提高压缩的一个这样的特性。
周期行为普遍存在,许多类型的收集的测量表现出周期模式、包括博客数据[1,2,3]、网络测量[4]、环境和自然过程[5,6]、医学和生理测量、前述仅为处置周期数据的许多科学和工业领域中的一些领域。
在数据包含固有结构时,可以执行高效压缩而数据质量损失最小。这可通过在完整正交基(complete orthonormal basis)表示、例如傅里叶、小波、主分量分析(PCA)中仅使用少数高能量系数来实现。
在数据挖掘团体中,已经如例如在[8]中描述的那样广泛地研究在欧几里得距离之下对时间序列(time-series)数据搜索。然而这样的研究通常已经考虑仅使用第一傅里叶或者小波的压缩。已经如在[1]中描述的那样研究对相异系数集合的使用。
用于依次数据的数据压缩技术中的多数数据压缩技术无论使用傅里叶[7,8]、小波[9,10]或者切比雪夫多项式[11]都使用相同低能系数集合作为用于表示和压缩的正交基。使用相同正交系数集合具有若干优点:首先,比较相应系数是立即进行的。第二,可以对压缩的数据直接使用空间分割编索引结构、比如R树。第三,不必还存储所存储的系数对应于的基函数的索引。缺点可能是对象重建和距离估计二者可能与对于给定的固定压缩比而言最优相距甚远。
也可以记录附带信息、比如丢弃的系数的能量以通过利用柯西-施瓦兹不等式[13]来更好地逼近(approximate)在压缩的序列之间的距离。
在US 2009/0204754A1(见[25])中,检查在一个压缩与一个未压缩的数据矢量之间的距离估计。
发明内容
根据第一方面的一个实施例,提出一种用于通过按照可表达为欧几里得距离的函数的某个度量而对压缩的数据矢量进行数据挖掘的方法。在第一步骤中,对于每个压缩的数据矢量,存储在压缩的数据矢量中的具有最大能量的这样的系数的位置和值。在第二步骤中,对于每个压缩的数据矢量,丢弃在压缩的数据矢量中的不具有最大能量的系数。在第三步骤中,对于每个压缩的数据矢量,根据在压缩的数据矢量中的丢弃的系数来确定压缩误差。在第四步骤中,根据具有最大能量的系数的存储的位置和存储的值以及确定的压缩误差来取回用于某个度量的上界和下界中的至少一个。
通过根据具有最大能量的系数的存储的位置和存储的值以及确定的压缩误差来取回用于某个度量的上界和下界,可以提供尽可能紧密的界限。获得紧密界限引起减少对压缩的数据矢量的、数据挖掘的相似性的不确定性。因此,可以增强对压缩的数据数量的数据挖掘。
具体而言,由于界限的所提供的紧密性,对压缩的数据矢量的数据挖掘表示用于对未压缩的数据矢量的数据挖掘的良好逼近。
根据在压缩的数据矢量中的丢弃的系数的能量之和来确定相应压缩误差。
与[25]对照,根据本方案的实施例,在使用高能量系数来压缩两个数据矢量时检查距离估计。
用于数据矢量的示例可以是高维数据矢量或者时间序列数据序列。
根据一些实现,假设两个压缩的数据矢量,可以提供关于在未压缩的对象之间的原有距离的最紧密可能上界和下界。最紧密意味着在信息给定时不可能推导更好估计。距离估计是数据挖掘的基础,因为挖掘和学习任务中的多数挖掘和学习任务基于距离、包括聚类、例如k均值或者分级、k-NN分类、孤立点检测(outlier detection)、模式匹配等。
根据一些实现,可以制定紧密距离估计问题为用于获得下界/上界的两个优化问题。可以通过解决单凸优化程序来同时解决两个问题。以下给出细节。
根据一些实现,推导用于最优求解的必要和充分Karush-Kuhn-Tucker(KKT)条件,并且提供最优求解的性质。
根据一些实现,使用分析以推导用于获得最优下界/上界的确切算法。
因而,关于距离的估计的下界/上界为最优地紧密,以便最小化关于距离估计的不确定性。这又意味着本方案可以最少地影响直接对压缩的数据操作进行的任何基于距离的挖掘操作。
根据一些实现,为每个虚拟维持相异系数集合,并且记录压缩误差的L2范数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380021614.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空气净化器智能云端平台
- 下一篇:具有限位功能的轮胎直压模具
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置