[发明专利]一种海量数据的快速建模方法无效

申请号：	200810057144.5	申请日：	2008-01-30
公开（公告）号：	CN101226551A	公开（公告）日：	2008-07-23
发明（设计）人：	伊胜伟;胡记兵;马世龙;蔡家楣	申请（专利权）人：	北京航空航天大学;浙江工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京永创新实专利事务所	代理人：	周长琪
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种海量数据快速建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘领域，涉及一种建模方法，具体涉及一种海量数据的快速建模方法。

背景技术

决策树学习是以实例为基础的归纳学习方法，它着眼于从一组无次序、无规则的事例中推理出以决策树为表示形式的分类规则，通常用来形成分类器和预测模型，可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤：第一步是利用训练样本集来建立一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。通常分为两个阶段：建树和剪枝。第二步是利用建好的决策树对新的数据进行分类。

据统计，目前决策树方法的利用率高达19％，在各种决策树分类方法中，早期的是CLS学习方法和CART方法。最有影响的是Quinlan提出的ID3方法，在ID3方法的基础上，他又提出了C4.5方法。为了适应处理大规模数据集的需要，后来又提出了若干改进的方法，如SLIQ方法、SPRINT方法、PUBLIC方法、SURPASS方法等，其中SURPASS(Scaling Up Recursive Partitioning with SufficientStatistics，基于充分统计的增量式递归分割)方法是一个处理大小超过计算机内存的数字数据的决策树方法。

SURPASS方法的性能存在二律悖反：它在处理大小超过计算机内存的数据集上具有优势，但是处理如此大的数据量使得计算效率低下。SURPASS是专门用于处理数字数据的，当类型数据出现在训练数据中时，如果要使用它，就需要用二进制编码来处理类型值。当有很多类型属性时，每个属性包含大量类，编码过程将要创建大量的额外的二进制属性，这导致计算效率低下的问题。因为要连续的访问驻留磁盘的数据，SURPASS的计算时间预期比那些占用较多内存的决策树系统如C4.5或CART耗费更长的计算时间。因此，研究如何提高处理大数据集的速度是很有必要的。

对于计算效率低下的问题，SURPASS的提出者给出了一些设想。一个设想是在树生成的早期阶段，仅评估基于所有属性的线性组合的分割，不考虑使用单一属性的分割。当要分割的数据集的大小下降到一定水平时，基于所有属性的线性组合的分割的质量会恶化，方法恢复包含测试单个属性的过程。另外一个设想是使用数据约简技术，它以样本代替整个数据集。

SURPASS方法具有以下特征：

SURPASS方法中的Anderson规则

对于单属性j，Anderson规则是：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学，未经北京航空航天大学;浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810057144.5/2.html，转载请声明来源钻瓜专利网。

上一篇：电子银行网站客户行为及信息处理方法及系统
下一篇：喷墨打印装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种海量数据的快速建模方法无效

专利文献下载