[发明专利]一种海量数据的快速建模方法无效

专利信息
申请号: 200810057144.5 申请日: 2008-01-30
公开(公告)号: CN101226551A 公开(公告)日: 2008-07-23
发明(设计)人: 伊胜伟;胡记兵;马世龙;蔡家楣 申请(专利权)人: 北京航空航天大学;浙江工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京永创新实专利事务所 代理人: 周长琪
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 数据 快速 建模 方法
【说明书】:

技术领域

发明属于数据挖掘领域,涉及一种建模方法,具体涉及一种海量数据的快速建模方法。

背景技术

决策树学习是以实例为基础的归纳学习方法,它着眼于从一组无次序、无规则的事例中推理出以决策树为表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤:第一步是利用训练样本集来建立一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。通常分为两个阶段:建树和剪枝。第二步是利用建好的决策树对新的数据进行分类。

据统计,目前决策树方法的利用率高达19%,在各种决策树分类方法中,早期的是CLS学习方法和CART方法。最有影响的是Quinlan提出的ID3方法,在ID3方法的基础上,他又提出了C4.5方法。为了适应处理大规模数据集的需要,后来又提出了若干改进的方法,如SLIQ方法、SPRINT方法、PUBLIC方法、SURPASS方法等,其中SURPASS(Scaling Up Recursive Partitioning with SufficientStatistics,基于充分统计的增量式递归分割)方法是一个处理大小超过计算机内存的数字数据的决策树方法。

SURPASS方法的性能存在二律悖反:它在处理大小超过计算机内存的数据集上具有优势,但是处理如此大的数据量使得计算效率低下。SURPASS是专门用于处理数字数据的,当类型数据出现在训练数据中时,如果要使用它,就需要用二进制编码来处理类型值。当有很多类型属性时,每个属性包含大量类,编码过程将要创建大量的额外的二进制属性,这导致计算效率低下的问题。因为要连续的访问驻留磁盘的数据,SURPASS的计算时间预期比那些占用较多内存的决策树系统如C4.5或CART耗费更长的计算时间。因此,研究如何提高处理大数据集的速度是很有必要的。

对于计算效率低下的问题,SURPASS的提出者给出了一些设想。一个设想是在树生成的早期阶段,仅评估基于所有属性的线性组合的分割,不考虑使用单一属性的分割。当要分割的数据集的大小下降到一定水平时,基于所有属性的线性组合的分割的质量会恶化,方法恢复包含测试单个属性的过程。另外一个设想是使用数据约简技术,它以样本代替整个数据集。

SURPASS方法具有以下特征:

SURPASS方法中的Anderson规则

对于单属性j,Anderson规则是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学,未经北京航空航天大学;浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810057144.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top