[发明专利]一种数据挖掘系统中决策树的生成方法及装置无效

申请号：	200910236747.6	申请日：	2009-10-28
公开（公告）号：	CN102054002A	公开（公告）日：	2011-05-11
发明（设计）人：	邓超;徐萌;高丹;罗治国;周文辉;孙少陵;肖建明;段云峰	申请（专利权）人：	中国移动通信集团公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	100032 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据挖掘系统决策树生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种数据挖掘系统中决策树的生成方法及装置。

背景技术

数据挖掘又称数据库中的知识发现，是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式，融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测，从而很好地支持人们的决策。

数据挖掘的一个重要功能是数据分类，数据分类是指将数据映射到预先定义好的群组或类，目前常用的分类方法为基于决策树的方法，用决策树进行分类，生成规则易于理解并且高效，由于树的规模独立于数据库规模，所以决策树对于大规模数据库具有很好的扩展性。决策树是以实例为基础的归纳学习算法，它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同的属性值从该节点向下分支，叶节点是要学习划分的类。决策树中叶子节点代表实例样本所属的分类类别。树上的每一个非叶子节点指定了对实例的某个决策属性的测试，并且该节点的每一个后继分支对应于该决策属性的一个可能值，从根到叶节点的一条路径就对应着一条合取规则，整个决策数就对应着一组析取表达式规则。

用决策树进行分类主要包括两个步骤：第一步是利用训练集生成一棵决策树，建立决策树模型，这个过程实际上是一个从数据中获取知识，进行机器学习的过程；第二步是利用生成的决策树对输入数据进行分类，对输入的纪录，从根节点依次测试记录的属性值，直到到达某个叶子节点，从而找到该记录所在的类。基本的决策树生成方法是通过自顶向下增长节点实现的，其核心是为每个节点选取能最佳分类当前数据集的属性，成为该节点的决策属性。常用的ID3和C4.5等决策树生成算法，都以每个候选属性的信息增益值来衡量其分类能力，决策树上每个节点选择候选属性中具有最高信息增益值的属性为最佳分类属性，成为该节点的决策属性。需要指出的是，为得到特定候选属性的信息增益值，需要统计待分类数据集中该属性每个属性值对应不同分类类别的频度，进而计算该属性的信息熵以及信息增益值。这是决策树生成过程中最主要的计算阶段。

如图1所示，现有决策树生成方法的基本流程为：

步骤101、重复遍历全部数据集，依次计算每个候选属性的信息增益值。

如图所示，该步骤中，首先通过遍历全部数据集计算第1个候选属性的信息增益值，然后通过遍历全部数据集计算第2个候选属性的信息增益值，依此类推，最后通过遍历全部数据集计算最后一个候选属性的信息增益值。

步骤102、选择具有最大信息增益值的候选属性为全部数据集对应的决策属性，成为决策树根节点。

步骤103、依次为根节点决策属性的每个属性值产生一个分支，并得到决策属性各属性值对应的未分类数据子集，按照递归方式建立各属性值对应的分支的决策子树。

如图所示，该步骤中，首先得到决策属性第1个属性值对应的未分类数据子集并按照递归方式建立第1个属性值对应的分支的决策子树，然后得到决策属性第2个属性值对应的未分类数据子集并按照递归方式建立第2个属性值对应的分支的决策子树，依此类推，最后得到决策属性最后1个属性值对应的未分类数据子集并按照递归方式建立最后1个属性值对应的分支的决策子树。

其中，步骤101中，计算一个候选属性的信息增益值的过程如图2所示，包括步骤：

步骤201、重复遍历全部数据集，依次确定当前候选属性各属性值对应不同分类类别的频度；

如图所示，该步骤中，首先通过遍历全部数据集确定当前候选属性第1个属性值对应不同分类类别的频度，然后通过遍历全部数据集确定当前候选属性第2个属性值对应不同分类类别的频度，依此类推，最后通过遍历全部数据集确定当前候选属性最后1个属性值对应不同分类类别的频度。

步骤202、合并该候选属性各属性值对应的频度，计算该候选属性的信息熵；

步骤203、根据该候选属性的信息熵计算该候选属性的信息增益值。

以上决策树生成方法中，在为根节点选择决策属性时，需要多次重复遍历全部数据集，当数据集为海量数据时，执行效率低，且易造成存储资源占用严重，系统性能降低；并且，计算多个候选属性的信息增益值时，采用依次顺序求解的串行方式，计算效率低，且无法充分利用系统的计算资源。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司，未经中国移动通信集团公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910236747.6/2.html，转载请声明来源钻瓜专利网。