[发明专利]未知多维数据中发现模式的计算方法无效
申请号: | 200380100068.7 | 申请日: | 2003-10-06 |
公开(公告)号: | CN100365648C | 公开(公告)日: | 2008-01-30 |
发明(设计)人: | 卡蒂尔·A·匹克尔 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06K9/64 | 分类号: | G06K9/64;G06F17/30;G06F19/00;G10L15/08;G06N3/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李德山 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 未知 多维 数据 发现 模式 计算方法 | ||
技术领域
本发明一般性地涉及数据分析,尤其涉及用于时间序列数据中发现模式的方法。
背景技术
数据挖掘是从大规模数据库和Internet中提取信息。数据挖掘已经应用于市场、金融、传感器和生物数据的分析。数据挖掘不应当与对数据进行搜索以得到已知模式的模式匹配混为一谈。
基本上,数据挖掘是发现数据中“有兴趣的”和以前未知的模式。有兴趣的模式通常是根据特定模式的重新出现频率来定义的。因为数据挖掘并不假设任何预定的模式,所以它常常被描述为无监督的学习。
数据挖掘从大量数据中推导出规则、趋势、规律和相关。数据挖掘常常基于人工智能(AI)、基于记忆的推理(MBR)、关联规则生成、决策树(DT)、神经元分析、统计分析、聚类和时间序列分析。
聚类在数据中识别出相关信息的同类组。现有技术的聚类假定数据中间的关系是已知的。聚类已经在统计学、模式识别和机器学习方面进行了广泛的研究。聚类应用的例子包含市场分析中的顾客群划分、传感数据中信号数据库的子类识别。
聚类技术在广义上能够分成划分(positional)技术和分层(hiearchical)技术。划分聚类将数据分成K个聚类,使得每个聚类中的数据都比其它不同聚类中的数据彼此更相似。K的值能够由用户进行赋值,或通过迭代确定以使聚类准则最小。
分层聚类是划分的嵌套序列。凝聚(agglomerative)分层聚类将数据置于原子聚类中,然后将这些原子聚类合并成越来越大的聚类,直至所有数据均在单一大聚类中。分裂(divisive)分层聚类则颠倒这一过程,其中从一个聚类中的所有数据开始,并将这个聚类细分成更小的聚类,例如见Jain等人的“数据聚类算法”,Prentice Hall,1988,Piramuthu等人的“SOM神经网络与分层聚类方法之比较”,EuropeanJournal of Operational Research,93(2):402-417,1996年9月,Michaud的“四种聚类技术”,FGCS Journal,Special Issue on DataMining,1997,和Zait等人的“聚类方法的比较研究”,FGCS Journal,Special Issue on Data Mining,1997。
大部分数据挖掘方法减少输入数据的维数。在高维数据空间中形成的聚类不可能是有意义的聚类,因为在高维数据空间任意位置的预期平均点密度较低。减少数据维数的已知技术包含主成分分析(PCA)、因子分析、奇异值分解(SVD)和小波。主成分分析也被称为Karhunen-Loeve展开,其求解出能够说明数据特征方差的较低维表示,而因子分析则求出数据特征中的相关性。Jain等人在“特征选择算法:评估,技术报告”,计算机科学系,密执安州立大学,East Lansing,Mich.,1996中描述了用于图像分析领域的技术。
用于分析顾客购买模式的流行数据挖掘技术是对不明显关联或关联规则的识别。明显关联的例子是购买婴儿代乳品的顾客也同时会购买尿布。然而,1992年发现在傍晚时间人们会经常一起购买啤酒和尿布。这样的关联是不明显关联的典型例子。正常情况下,人们不会将尿布和啤酒联系为强相关的购买项目,因为啤酒通常不被认为是婴儿代乳品。这样的方法也被称为购物篮分析法(market-basketanalysis)。
关联定义如下。如果一个集合具有n个项I1,...,In和一次交易,例如数据库或操作选择这n项中的一个子集,则在两项Ii和Ij之间的关联被定义为规则R,两项Ii和Ij中的任何交易都被选入该子集。规则R的条件被定义为Ii项的出现。规则R的结果被定义为Ij项的出现。规则R的支持度被定义为具有项Ii和Ij的交易的百分比。规则R的组合被定义为同一交易中Ii和Ij都出现。规则R的置信度被定义为组合的支持度与条件支持度之比。最后,规则R的改进被定义为该规则的支持度与条件Ii的支持度和结果Ij的支持度的乘积之比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200380100068.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置