[发明专利]一种海量数据的快速建模方法无效
| 申请号: | 200810057144.5 | 申请日: | 2008-01-30 |
| 公开(公告)号: | CN101226551A | 公开(公告)日: | 2008-07-23 |
| 发明(设计)人: | 伊胜伟;胡记兵;马世龙;蔡家楣 | 申请(专利权)人: | 北京航空航天大学;浙江工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京永创新实专利事务所 | 代理人: | 周长琪 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 海量 数据 快速 建模 方法 | ||
技术领域
本发明属于数据挖掘领域,涉及一种建模方法,具体涉及一种海量数据的快速建模方法。
背景技术
决策树学习是以实例为基础的归纳学习方法,它着眼于从一组无次序、无规则的事例中推理出以决策树为表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤:第一步是利用训练样本集来建立一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。通常分为两个阶段:建树和剪枝。第二步是利用建好的决策树对新的数据进行分类。
据统计,目前决策树方法的利用率高达19%,在各种决策树分类方法中,早期的是CLS学习方法和CART方法。最有影响的是Quinlan提出的ID3方法,在ID3方法的基础上,他又提出了C4.5方法。为了适应处理大规模数据集的需要,后来又提出了若干改进的方法,如SLIQ方法、SPRINT方法、PUBLIC方法、SURPASS方法等,其中SURPASS(Scaling Up Recursive Partitioning with SufficientStatistics,基于充分统计的增量式递归分割)方法是一个处理大小超过计算机内存的数字数据的决策树方法。
SURPASS方法的性能存在二律悖反:它在处理大小超过计算机内存的数据集上具有优势,但是处理如此大的数据量使得计算效率低下。SURPASS是专门用于处理数字数据的,当类型数据出现在训练数据中时,如果要使用它,就需要用二进制编码来处理类型值。当有很多类型属性时,每个属性包含大量类,编码过程将要创建大量的额外的二进制属性,这导致计算效率低下的问题。因为要连续的访问驻留磁盘的数据,SURPASS的计算时间预期比那些占用较多内存的决策树系统如C4.5或CART耗费更长的计算时间。因此,研究如何提高处理大数据集的速度是很有必要的。
对于计算效率低下的问题,SURPASS的提出者给出了一些设想。一个设想是在树生成的早期阶段,仅评估基于所有属性的线性组合的分割,不考虑使用单一属性的分割。当要分割的数据集的大小下降到一定水平时,基于所有属性的线性组合的分割的质量会恶化,方法恢复包含测试单个属性的过程。另外一个设想是使用数据约简技术,它以样本代替整个数据集。
SURPASS方法具有以下特征:
SURPASS方法中的Anderson规则
对于单属性j,Anderson规则是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学,未经北京航空航天大学;浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810057144.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子银行网站客户行为及信息处理方法及系统
- 下一篇:喷墨打印装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





